From 7d51b657d1f3b7728a418f15867d30c8561d78a4 Mon Sep 17 00:00:00 2001
From: duanjunwen <935724073@qq.com>
Date: Wed, 30 Apr 2025 15:24:18 +0800
Subject: [PATCH 01/24] [fix] support npu

---
 .../coati/distributed/consumer.py             | 14 +++++++---
 .../coati/distributed/producer.py             | 10 +++----
 .../kernel_meta/buildPidInfo.json             |  6 +++++
 applications/ColossalChat/rl_example.py       | 26 +++++++++----------
 4 files changed, 34 insertions(+), 22 deletions(-)
 create mode 100644 applications/ColossalChat/kernel_meta/buildPidInfo.json

diff --git a/applications/ColossalChat/coati/distributed/consumer.py b/applications/ColossalChat/coati/distributed/consumer.py
index 1cebcb40eacb..d04ffae2ff8f 100644
--- a/applications/ColossalChat/coati/distributed/consumer.py
+++ b/applications/ColossalChat/coati/distributed/consumer.py
@@ -18,7 +18,7 @@
 from .comm import ray_broadcast_tensor_dict
 from .utils import bind_batch, pad_batch, post_recv, unbind_batch
 
-
+first_sleep=True
 class BaseConsumer:
     def __init__(
         self,
@@ -55,7 +55,8 @@ def __init__(
         self.model_config = model_config
         self.plugin_config = plugin_config
 
-        self.device = get_current_device()
+        # self.device = get_current_device()
+        self.device = 'npu'
         self.lr_scheduler = None
 
     def setup(self) -> None:
@@ -86,11 +87,11 @@ def setup(self) -> None:
             # use hybrid tp + pp
             if self.tp_rank == 0 and self.dp_rank == 0:
                 cc.init_collective_group(
-                    self.num_producers + 1, self.num_producers, group_name=f"sync_model_{self.pp_rank}"
+                    self.num_producers + 1, self.num_producers, backend='hccl', group_name=f"sync_model_{self.pp_rank}"
                 )
         else:
             if self.rank == 0:
-                cc.init_collective_group(self.num_producers + 1, self.num_producers, group_name="sync_model")
+                cc.init_collective_group(self.num_producers + 1, self.num_producers, backend='hccl', group_name="sync_model")
 
         self.buffer = []
 
@@ -114,6 +115,11 @@ def loop(self) -> None:
                         # receive data from producers
                         for r in range(self.num_producers):
                             print(f"[T{dist.get_rank()}] Recv data episode {episode} step {step} from {r}")
+                            global first_sleep
+                            if first_sleep:
+                                import time
+                                time.sleep(180)
+                                first_sleep=False
                             self.buffer.extend(
                                 unbind_batch(
                                     ray_broadcast_tensor_dict(
diff --git a/applications/ColossalChat/coati/distributed/producer.py b/applications/ColossalChat/coati/distributed/producer.py
index a2d675870fc2..c45ddd450fb4 100644
--- a/applications/ColossalChat/coati/distributed/producer.py
+++ b/applications/ColossalChat/coati/distributed/producer.py
@@ -13,7 +13,6 @@
 from .inference_backend import BACKEND_MAP
 from .utils import pre_send
 
-
 class BaseProducer:
     def __init__(
         self,
@@ -71,7 +70,8 @@ def __init__(
             num_workers=4,
             drop_last=True,
         )
-        self.device = get_current_device()
+        # self.device = get_current_device()
+        self.device = 'npu'
 
         # init backend
         if backend in BACKEND_MAP:
@@ -82,12 +82,12 @@ def __init__(
         self.consumer_pp_size = consumer_plugin_config["pp_size"]  # consumer pp size
 
     def setup(self) -> None:
-        cc.init_collective_group(1 + self.num_consumer_procs, 0, group_name=f"sync_data_{self.producer_idx}")
+        cc.init_collective_group(1 + self.num_consumer_procs, 0, backend='hccl', group_name=f"sync_data_{self.producer_idx}")
         if self.consumer_pp_size > 1:
             for i in range(self.consumer_pp_size):
-                cc.init_collective_group(self.num_producers + 1, self.producer_idx, group_name=f"sync_model_{i}")
+                cc.init_collective_group(self.num_producers + 1, self.producer_idx, backend='hccl', group_name=f"sync_model_{i}")
         else:
-            cc.init_collective_group(self.num_producers + 1, self.producer_idx, group_name="sync_model")
+            cc.init_collective_group(self.num_producers + 1, self.producer_idx, backend='hccl', group_name="sync_model")
 
     def rollout(self, input_ids: torch.Tensor, attention_mask: torch.Tensor, **kwargs) -> Dict[str, torch.Tensor]:
         raise NotImplementedError
diff --git a/applications/ColossalChat/kernel_meta/buildPidInfo.json b/applications/ColossalChat/kernel_meta/buildPidInfo.json
new file mode 100644
index 000000000000..7194c917d7ed
--- /dev/null
+++ b/applications/ColossalChat/kernel_meta/buildPidInfo.json
@@ -0,0 +1,6 @@
+[
+    [
+        3383334,
+        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_18208839462778721971"
+    ]
+]
\ No newline at end of file
diff --git a/applications/ColossalChat/rl_example.py b/applications/ColossalChat/rl_example.py
index 788e60c2edac..18948a569642 100644
--- a/applications/ColossalChat/rl_example.py
+++ b/applications/ColossalChat/rl_example.py
@@ -129,7 +129,7 @@
             args.top_k = -1
 
     inference_model_config = dict(path=args.model)
-    train_model_config = dict(path=args.model, use_flash_attention_2=True, use_cache=False)
+    train_model_config = dict(path=args.model, use_flash_attention_2=False, use_cache=False, attn_implementation="eager")
     generate_config = dict(top_k=args.top_k, top_p=args.top_p, temperature=args.temperature)
 
     if args.backend == "transformers":
@@ -155,7 +155,7 @@
                 enforce_eager=True,
                 enable_chunked_prefill=True,
                 max_model_len=args.max_new_tokens + args.max_prompt_tokens,
-                tensor_parallel_size=1,
+                tensor_parallel_size=2,
             )
         )
         generate_config.update(
@@ -219,18 +219,18 @@
         num_generations=args.num_generations,
         train_model_config=train_model_config,
         grpo_config=grpo_config,
-        plugin_config={
-            "zero_stage": 2,
-        },  # for zero
         # plugin_config={
-        #     "tp_size": 1,
-        #     "pp_size": 2,
-        #     "microbatch_size": max(
-        #         1, args.train_microbatch_size // 2
-        #     ),  # microbatch size should be set to train_microbatch_size // pp_size
-        #     "zero_stage": 0,
-        #     "max_norm": 1.0,
-        # },  # for pp, tp
+        #     "zero_stage": 2,
+        # },  # for zero
+        plugin_config={
+            "tp_size": 2,
+            "pp_size": 2,
+            "microbatch_size": max(
+                1, args.train_microbatch_size // 2
+            ),  # microbatch size should be set to train_microbatch_size // pp_size
+            "zero_stage": 1,
+            "max_norm": 1.0,
+        },  # for pp, tp
         inference_backend=args.backend,
         master_addr="localhost",
         master_port=args.master_port,

From f4c1993726b9c9d033548d15f53feeea0df41f66 Mon Sep 17 00:00:00 2001
From: duanjunwen <935724073@qq.com>
Date: Thu, 8 May 2025 17:54:50 +0800
Subject: [PATCH 02/24] [feat] multinode 14B

---
 .../ColossalChat/.nfs00000000078104b100001d70 | 389 ++++++++++++++++++
 .../coati/distributed/consumer.py             |   4 +-
 .../ColossalChat/coati/distributed/launch.py  | 124 +++++-
 .../coati/distributed/producer.py             |   3 +-
 applications/ColossalChat/fusion_result.json  |   1 +
 .../kernel_meta/buildPidInfo.json             |  12 +-
 applications/ColossalChat/rl_example.py       |   8 +-
 .../ColossalChat/tests/test_hybrid.py         | 143 +++++++
 applications/ColossalChat/tests/test_ray.py   |  88 ++++
 applications/ColossalChat/tests/test_vllm.py  |  27 ++
 .../ColossalChat/tests/test_vllm_multinode.py | 108 +++++
 11 files changed, 891 insertions(+), 16 deletions(-)
 create mode 100755 applications/ColossalChat/.nfs00000000078104b100001d70
 create mode 100644 applications/ColossalChat/fusion_result.json
 create mode 100644 applications/ColossalChat/tests/test_hybrid.py
 create mode 100644 applications/ColossalChat/tests/test_ray.py
 create mode 100644 applications/ColossalChat/tests/test_vllm.py
 create mode 100644 applications/ColossalChat/tests/test_vllm_multinode.py

diff --git a/applications/ColossalChat/.nfs00000000078104b100001d70 b/applications/ColossalChat/.nfs00000000078104b100001d70
new file mode 100755
index 000000000000..5db53e4f6063
--- /dev/null
+++ b/applications/ColossalChat/.nfs00000000078104b100001d70
@@ -0,0 +1,389 @@
+2025-05-06 22:50:50,843	WARNING collective.py:22 -- NCCL seems unavailable. Please install Cupy following the guide at: https://docs.cupy.dev/en/stable/install.html.
+/home/duanjunwen/ColossalAI/colossalai/utils/safetensors.py:13: UserWarning: Please install the latest tensornvme to use async save. pip install git+https://github.com/hpcaitech/TensorNVMe.git
+  warnings.warn(
+/usr/local/python3.10/lib/python3.10/site-packages/bitsandbytes/cextension.py:34: UserWarning: The installed version of bitsandbytes was compiled without GPU support. 8-bit optimizers, 8-bit multiplication, and GPU quantization are unavailable.
+  warn("The installed version of bitsandbytes was compiled without GPU support. "
+/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/normalization.py:48: UserWarning: Please install apex from source (https://github.com/NVIDIA/apex) to use the fused RMSNorm kernel
+  warnings.warn("Please install apex from source (https://github.com/NVIDIA/apex) to use the fused RMSNorm kernel")
+'NoneType' object has no attribute 'cadam32bit_grad_fp32'
+2025-05-06 22:51:04,272	INFO worker.py:1654 -- Connecting to existing Ray cluster at address: 10.0.0.3:6379...
+2025-05-06 22:51:04,285	INFO worker.py:1841 -- Connected to Ray cluster.
+[36m(pid=259440)[0m NCCL seems unavailable. Please install Cupy following the guide at: https://docs.cupy.dev/en/stable/install.html.
+[36m(pid=132985, ip=10.0.0.4)[0m /home/duanjunwen/ColossalAI/colossalai/utils/safetensors.py:13: UserWarning: Please install the latest tensornvme to use async save. pip install git+https://github.com/hpcaitech/TensorNVMe.git
+[36m(pid=132985, ip=10.0.0.4)[0m   warnings.warn(
+[36m(pid=259440)[0m /usr/local/python3.10/lib/python3.10/site-packages/bitsandbytes/cextension.py:34: UserWarning: The installed version of bitsandbytes was compiled without GPU support. 8-bit optimizers, 8-bit multiplication, and GPU quantization are unavailable.
+[36m(pid=259440)[0m   warn("The installed version of bitsandbytes was compiled without GPU support. "
+[36m(pid=132987, ip=10.0.0.4)[0m /home/duanjunwen/ColossalAI/colossalai/shardformer/layer/normalization.py:48: UserWarning: Please install apex from source (https://github.com/NVIDIA/apex) to use the fused RMSNorm kernel
+[36m(pid=132987, ip=10.0.0.4)[0m   warnings.warn("Please install apex from source (https://github.com/NVIDIA/apex) to use the fused RMSNorm kernel")
+[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]
+[36m(pid=132983, ip=10.0.0.4)[0m NCCL seems unavailable. Please install Cupy following the guide at: https://docs.cupy.dev/en/stable/install.html.[32m [repeated 15x across cluster][0m
+[36m(pid=259435)[0m /home/duanjunwen/ColossalAI/colossalai/utils/safetensors.py:13: UserWarning: Please install the latest tensornvme to use async save. pip install git+https://github.com/hpcaitech/TensorNVMe.git[32m [repeated 15x across cluster][0m
+[36m(pid=259435)[0m   warnings.warn([32m [repeated 15x across cluster][0m
+[36m(pid=259445)[0m /usr/local/python3.10/lib/python3.10/site-packages/bitsandbytes/cextension.py:34: UserWarning: The installed version of bitsandbytes was compiled without GPU support. 8-bit optimizers, 8-bit multiplication, and GPU quantization are unavailable.[32m [repeated 15x across cluster][0m
+[36m(pid=259445)[0m   warn("The installed version of bitsandbytes was compiled without GPU support. "[32m [repeated 15x across cluster][0m
+[36m(pid=259435)[0m /home/duanjunwen/ColossalAI/colossalai/shardformer/layer/normalization.py:48: UserWarning: Please install apex from source (https://github.com/NVIDIA/apex) to use the fused RMSNorm kernel[32m [repeated 15x across cluster][0m
+[36m(pid=259435)[0m   warnings.warn("Please install apex from source (https://github.com/NVIDIA/apex) to use the fused RMSNorm kernel")[32m [repeated 15x across cluster][0m
+[36m(SimpleProducer pid=259434)[0m /usr/local/python3.10/lib/python3.10/site-packages/torch_npu/contrib/transfer_to_npu.py:292: ImportWarning: 
+[36m(SimpleProducer pid=259434)[0m     *************************************************************************************************************
+[36m(SimpleProducer pid=259434)[0m     The torch.Tensor.cuda and torch.nn.Module.cuda are replaced with torch.Tensor.npu and torch.nn.Module.npu now..
+[36m(SimpleProducer pid=259434)[0m     The torch.cuda.DoubleTensor is replaced with torch.npu.FloatTensor cause the double type is not supported now..
+[36m(SimpleProducer pid=259434)[0m     The backend in torch.distributed.init_process_group set to hccl now..
+[36m(SimpleProducer pid=259434)[0m     The torch.cuda.* and torch.cuda.amp.* are replaced with torch.npu.* and torch.npu.amp.* now..
+[36m(SimpleProducer pid=259434)[0m     The device parameters have been replaced with npu in the function below:
+[36m(SimpleProducer pid=259434)[0m     torch.logspace, torch.randint, torch.hann_window, torch.rand, torch.full_like, torch.ones_like, torch.rand_like, torch.randperm, torch.arange, torch.frombuffer, torch.normal, torch._empty_per_channel_affine_quantized, torch.empty_strided, torch.empty_like, torch.scalar_tensor, torch.tril_indices, torch.bartlett_window, torch.ones, torch.sparse_coo_tensor, torch.randn, torch.kaiser_window, torch.tensor, torch.triu_indices, torch.as_tensor, torch.zeros, torch.randint_like, torch.full, torch.eye, torch._sparse_csr_tensor_unsafe, torch.empty, torch._sparse_coo_tensor_unsafe, torch.blackman_window, torch.zeros_like, torch.range, torch.sparse_csr_tensor, torch.randn_like, torch.from_file, torch._cudnn_init_dropout_state, torch._empty_affine_quantized, torch.linspace, torch.hamming_window, torch.empty_quantized, torch._pin_memory, torch.autocast, torch.load, torch.Generator, torch.set_default_device, torch.Tensor.new_empty, torch.Tensor.new_empty_strided, torch.Tensor.new_full, torch.Tensor.new_ones, torch.Tensor.new_tensor, torch.Tensor.new_zeros, torch.Tensor.to, torch.Tensor.pin_memory, torch.nn.Module.to, torch.nn.Module.to_empty
+[36m(SimpleProducer pid=259434)[0m     *************************************************************************************************************
+[36m(SimpleProducer pid=259434)[0m     
+[36m(SimpleProducer pid=259434)[0m   warnings.warn(msg, ImportWarning)
+[36m(SimpleProducer pid=259434)[0m /usr/local/python3.10/lib/python3.10/site-packages/torch_npu/contrib/transfer_to_npu.py:247: RuntimeWarning: torch.jit.script and torch.jit.script_method will be disabled by transfer_to_npu, which currently does not support them, if you need to enable them, please do not use transfer_to_npu.
+[36m(SimpleProducer pid=259434)[0m   warnings.warn(msg, RuntimeWarning)
+[36m(SimpleProducer pid=259443)[0m     
+[36m(SimpleProducer pid=259437)[0m     
+[36m(SimpleProducer pid=259449)[0m     
+[36m(SimpleProducer pid=259445)[0m     
+[36m(SimpleProducer pid=259440)[0m     
+[36m(SimpleProducer pid=259435)[0m     
+[36m(SimpleProducer pid=259436)[0m     
+[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m Loading checkpoint shards:  25%|██▌       | 1/4 [00:06<00:20,  6.80s/it]
+[36m(GRPOConsumer pid=132985, ip=10.0.0.4)[0m Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s][32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259436)[0m /usr/local/python3.10/lib/python3.10/site-packages/torch_npu/contrib/transfer_to_npu.py:292: ImportWarning: [32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259436)[0m     *************************************************************************************************************[32m [repeated 14x across cluster][0m
+[36m(SimpleProducer pid=259436)[0m     The torch.Tensor.cuda and torch.nn.Module.cuda are replaced with torch.Tensor.npu and torch.nn.Module.npu now..[32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259436)[0m     The torch.cuda.DoubleTensor is replaced with torch.npu.FloatTensor cause the double type is not supported now..[32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259436)[0m     The backend in torch.distributed.init_process_group set to hccl now..[32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259436)[0m     The torch.cuda.* and torch.cuda.amp.* are replaced with torch.npu.* and torch.npu.amp.* now..[32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259436)[0m     The device parameters have been replaced with npu in the function below:[32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259436)[0m     torch.logspace, torch.randint, torch.hann_window, torch.rand, torch.full_like, torch.ones_like, torch.rand_like, torch.randperm, torch.arange, torch.frombuffer, torch.normal, torch._empty_per_channel_affine_quantized, torch.empty_strided, torch.empty_like, torch.scalar_tensor, torch.tril_indices, torch.bartlett_window, torch.ones, torch.sparse_coo_tensor, torch.randn, torch.kaiser_window, torch.tensor, torch.triu_indices, torch.as_tensor, torch.zeros, torch.randint_like, torch.full, torch.eye, torch._sparse_csr_tensor_unsafe, torch.empty, torch._sparse_coo_tensor_unsafe, torch.blackman_window, torch.zeros_like, torch.range, torch.sparse_csr_tensor, torch.randn_like, torch.from_file, torch._cudnn_init_dropout_state, torch._empty_affine_quantized, torch.linspace, torch.hamming_window, torch.empty_quantized, torch._pin_memory, torch.autocast, torch.load, torch.Generator, torch.set_default_device, torch.Tensor.new_empty, torch.Tensor.new_empty_strided, torch.Tensor.new_full, torch.Tensor.new_ones, torch.Tensor.new_tensor, torch.Tensor.new_zeros, torch.Tensor.to, torch.Tensor.pin_memory, torch.nn.Module.to, torch.nn.Module.to_empty[32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259436)[0m   warnings.warn(msg, ImportWarning)[32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259436)[0m /usr/local/python3.10/lib/python3.10/site-packages/torch_npu/contrib/transfer_to_npu.py:247: RuntimeWarning: torch.jit.script and torch.jit.script_method will be disabled by transfer_to_npu, which currently does not support them, if you need to enable them, please do not use transfer_to_npu.[32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259436)[0m   warnings.warn(msg, RuntimeWarning)[32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259443)[0m [W506 22:51:37.130852786 compiler_depend.ts:848] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[36m(SimpleProducer pid=259443)[0m [rank0]:[W506 22:51:37.133613460 compiler_depend.ts:848] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[36m(SimpleProducer pid=259443)[0m [rank0]:[W506 22:51:37.159879408 compiler_depend.ts:848] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[36m(SimpleProducer pid=259443)[0m [rank0]:[W506 22:51:37.166827262 compiler_depend.ts:848] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[36m(SimpleProducer pid=259443)[0m Loading safetensors checkpoint shards:   0% Completed | 0/4 [00:00<?, ?it/s]
+[36m(GRPOConsumer pid=132984, ip=10.0.0.4)[0m Loading checkpoint shards:  25%|██▌       | 1/4 [00:07<00:23,  7.91s/it][32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259437)[0m Loading safetensors checkpoint shards:  25% Completed | 1/4 [00:04<00:12,  4.10s/it]
+[36m(SimpleProducer pid=259436)[0m [rank0]:[W506 22:51:42.331997621 compiler_depend.ts:848] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)[32m [repeated 28x across cluster][0m
+[36m(SimpleProducer pid=259436)[0m Loading safetensors checkpoint shards:   0% Completed | 0/4 [00:00<?, ?it/s][32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259437)[0m Loading safetensors checkpoint shards:  50% Completed | 2/4 [00:06<00:06,  3.05s/it]
+[36m(GRPOConsumer pid=132987, ip=10.0.0.4)[0m Loading checkpoint shards:  50%|█████     | 2/4 [00:15<00:16,  8.01s/it][32m [repeated 8x across cluster][0m
+[36m(SimpleProducer pid=259445)[0m Loading safetensors checkpoint shards:  25% Completed | 1/4 [00:09<00:28,  9.59s/it][32m [repeated 4x across cluster][0m
+[36m(SimpleProducer pid=259437)[0m 
+[36m(GRPOConsumer pid=132983, ip=10.0.0.4)[0m Loading checkpoint shards:  75%|███████▌  | 3/4 [00:21<00:07,  7.00s/it][32m [repeated 2x across cluster][0m
+[36m(SimpleProducer pid=259435)[0m Loading safetensors checkpoint shards:  50% Completed | 2/4 [00:11<00:11,  5.55s/it][32m [repeated 9x across cluster][0m
+[36m(SimpleProducer pid=259449)[0m 
+[36m(GRPOConsumer pid=132987, ip=10.0.0.4)[0m Loading checkpoint shards:  75%|███████▌  | 3/4 [00:23<00:07,  7.89s/it][32m [repeated 6x across cluster][0m
+[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m Loading checkpoint shards: 100%|██████████| 4/4 [00:28<00:00,  7.13s/it]Loading checkpoint shards: 100%|██████████| 4/4 [00:28<00:00,  7.10s/it]
+[36m(SimpleProducer pid=259435)[0m Loading safetensors checkpoint shards:  75% Completed | 3/4 [00:16<00:05,  5.33s/it][32m [repeated 7x across cluster][0m
+[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]
+[36m(SimpleProducer pid=259440)[0m 
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259435)[0m 
+[36m(GRPOConsumer pid=132987, ip=10.0.0.4)[0m Loading checkpoint shards: 100%|██████████| 4/4 [00:31<00:00,  7.69s/it]Loading checkpoint shards: 100%|██████████| 4/4 [00:31<00:00,  7.78s/it][32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259443)[0m Loading safetensors checkpoint shards:  50% Completed | 2/4 [00:26<00:26, 13.07s/it][32m [repeated 9x across cluster][0m
+[36m(GRPOConsumer pid=132987, ip=10.0.0.4)[0m Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s][32m [repeated 7x across cluster][0m
+[36m(GRPOConsumer pid=132983, ip=10.0.0.4)[0m Loading checkpoint shards:  25%|██▌       | 1/4 [00:06<00:20,  6.93s/it]
+[36m(SimpleProducer pid=259445)[0m Loading safetensors checkpoint shards:  75% Completed | 3/4 [00:26<00:08,  8.82s/it]
+[36m(SimpleProducer pid=259436)[0m Loading safetensors checkpoint shards:  75% Completed | 3/4 [00:28<00:09,  9.45s/it]
+[36m(SimpleProducer pid=259445)[0m 
+[36m(GRPOConsumer pid=132987, ip=10.0.0.4)[0m Loading checkpoint shards:  25%|██▌       | 1/4 [00:07<00:23,  7.81s/it][32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259445)[0m Loading safetensors checkpoint shards: 100% Completed | 4/4 [00:33<00:00,  8.28s/it][32m [repeated 2x across cluster][0m
+[36m(GRPOConsumer pid=132982, ip=10.0.0.4)[0m Loading checkpoint shards:  50%|█████     | 2/4 [00:15<00:15,  7.51s/it][32m [repeated 6x across cluster][0m
+[36m(SimpleProducer pid=259436)[0m 
+[36m(SimpleProducer pid=259436)[0m Loading safetensors checkpoint shards: 100% Completed | 4/4 [00:37<00:00,  9.39s/it][32m [repeated 3x across cluster][0m
+[36m(GRPOConsumer pid=132986, ip=10.0.0.4)[0m Loading checkpoint shards:  75%|███████▌  | 3/4 [00:22<00:07,  7.47s/it][32m [repeated 5x across cluster][0m
+[36m(GRPOConsumer pid=132983, ip=10.0.0.4)[0m Loading checkpoint shards: 100%|██████████| 4/4 [00:27<00:00,  6.88s/it]Loading checkpoint shards: 100%|██████████| 4/4 [00:27<00:00,  6.89s/it]
+[36m(GRPOConsumer pid=132987, ip=10.0.0.4)[0m Loading checkpoint shards:  75%|███████▌  | 3/4 [00:23<00:07,  7.94s/it][32m [repeated 5x across cluster][0m
+[36m(GRPOConsumer pid=132983, ip=10.0.0.4)[0m [W506 22:52:29.496557944 compiler_depend.ts:848] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[36m(GRPOConsumer pid=132983, ip=10.0.0.4)[0m [rank3]:[W506 22:52:29.612466819 compiler_depend.ts:848] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[36m(GRPOConsumer pid=132983, ip=10.0.0.4)[0m [rank3]:[W506 22:52:29.613732489 compiler_depend.ts:848] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[36m(GRPOConsumer pid=132983, ip=10.0.0.4)[0m [rank3]:[W506 22:52:29.615149419 compiler_depend.ts:848] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[36m(GRPOConsumer pid=132983, ip=10.0.0.4)[0m [rank3]:[W506 22:52:29.616241789 compiler_depend.ts:848] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
+[36m(GRPOConsumer pid=132986, ip=10.0.0.4)[0m wandb: Using wandb-core as the SDK backend.  Please refer to https://wandb.me/wandb-core for more information.
+[36m(GRPOConsumer pid=132985, ip=10.0.0.4)[0m Loading checkpoint shards: 100%|██████████| 4/4 [00:29<00:00,  7.53s/it]Loading checkpoint shards: 100%|██████████| 4/4 [00:29<00:00,  7.49s/it][32m [repeated 4x across cluster][0m
+[36m(GRPOConsumer pid=132986, ip=10.0.0.4)[0m wandb: Currently logged in as: 935724073 (935724073-university-of-new-south-wales) to https://api.wandb.ai. Use `wandb login --relogin` to force relogin
+[36m(GRPOConsumer pid=132986, ip=10.0.0.4)[0m wandb: WARNING Path ./wandb/wandb/ wasn't writable, using system temp directory.
+[36m(GRPOConsumer pid=132986, ip=10.0.0.4)[0m wandb: creating run
+[36m(SimpleProducer pid=259443)[0m Loading safetensors checkpoint shards: 100% Completed | 4/4 [00:54<00:00, 13.97s/it]
+[36m(SimpleProducer pid=259443)[0m Loading safetensors checkpoint shards: 100% Completed | 4/4 [00:54<00:00, 13.69s/it]
+[36m(SimpleProducer pid=259443)[0m 
+[36m(GRPOConsumer pid=132986, ip=10.0.0.4)[0m wandb: Tracking run with wandb version 0.19.8
+[36m(GRPOConsumer pid=132986, ip=10.0.0.4)[0m wandb: Run data is saved locally in /tmp/wandb/run-20250506_225231-t3q14dzy
+[36m(GRPOConsumer pid=132986, ip=10.0.0.4)[0m wandb: Run `wandb offline` to turn off syncing.
+[36m(GRPOConsumer pid=132986, ip=10.0.0.4)[0m wandb: Syncing run vllm_bs_32_temp_1.0_top_p_1.00
+[36m(GRPOConsumer pid=132986, ip=10.0.0.4)[0m wandb: ⭐️ View project at https://wandb.ai/935724073-university-of-new-south-wales/GRPO-Train-Align-Debug
+[36m(GRPOConsumer pid=132986, ip=10.0.0.4)[0m wandb: 🚀 View run at https://wandb.ai/935724073-university-of-new-south-wales/GRPO-Train-Align-Debug/runs/t3q14dzy
+[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m Episode 0:   0%|          | 0/117 [00:00<?, ?it/s]
+[36m(GRPOConsumer pid=132987, ip=10.0.0.4)[0m [rank4]:[W506 22:52:34.326771112 compiler_depend.ts:848] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)[32m [repeated 35x across cluster][0m
+[36m(GRPOConsumer pid=132985, ip=10.0.0.4)[0m wandb: Using wandb-core as the SDK backend.  Please refer to https://wandb.me/wandb-core for more information.
+[36m(GRPOConsumer pid=132987, ip=10.0.0.4)[0m Loading checkpoint shards: 100%|██████████| 4/4 [00:31<00:00,  7.72s/it]Loading checkpoint shards: 100%|██████████| 4/4 [00:31<00:00,  7.80s/it][32m [repeated 3x across cluster][0m
+[36m(GRPOConsumer pid=132985, ip=10.0.0.4)[0m wandb: Currently logged in as: 935724073 (935724073-university-of-new-south-wales) to https://api.wandb.ai. Use `wandb login --relogin` to force relogin
+[36m(GRPOConsumer pid=132985, ip=10.0.0.4)[0m wandb: WARNING Path ./wandb/wandb/ wasn't writable, using system temp directory.
+[36m(GRPOConsumer pid=132985, ip=10.0.0.4)[0m wandb: Tracking run with wandb version 0.19.8
+[36m(GRPOConsumer pid=132985, ip=10.0.0.4)[0m wandb: Run data is saved locally in /tmp/wandb/run-20250506_225233-5oz1tbc3
+[36m(GRPOConsumer pid=132985, ip=10.0.0.4)[0m wandb: Run `wandb offline` to turn off syncing.
+[36m(GRPOConsumer pid=132985, ip=10.0.0.4)[0m wandb: Syncing run vllm_bs_32_temp_1.0_top_p_1.00
+[36m(GRPOConsumer pid=132985, ip=10.0.0.4)[0m wandb: ⭐️ View project at https://wandb.ai/935724073-university-of-new-south-wales/GRPO-Train-Align-Debug
+[36m(GRPOConsumer pid=132985, ip=10.0.0.4)[0m wandb: 🚀 View run at https://wandb.ai/935724073-university-of-new-south-wales/GRPO-Train-Align-Debug/runs/5oz1tbc3
+[36m(SimpleProducer pid=259437)[0m /usr/local/python3.10/lib/python3.10/site-packages/torch/utils/_contextlib.py:116: DeprecationWarning: The keyword arguments {'prompt_token_ids'} are deprecated and will be removed in a future update. Please use the 'prompts' parameter instead.
+[36m(SimpleProducer pid=259437)[0m   return func(*args, **kwargs)
+[36m(GRPOConsumer pid=132987, ip=10.0.0.4)[0m Successful rendezvous!
+[36m(SimpleProducer pid=259445)[0m /usr/local/python3.10/lib/python3.10/site-packages/torch/utils/_contextlib.py:116: DeprecationWarning: The keyword arguments {'prompt_token_ids'} are deprecated and will be removed in a future update. Please use the 'prompts' parameter instead.[32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259445)[0m   return func(*args, **kwargs)[32m [repeated 7x across cluster][0m
+[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m Successful rendezvous![32m [repeated 56x across cluster][0m
+[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m Episode 0:   0%|          | 0/117 [05:08<?, ?it/s, Step=1, Status=Collecting: 256/256]
+[36m(GRPOConsumer pid=132988, ip=10.0.0.4)[0m Successful rendezvous![32m [repeated 7x across cluster][0m
+[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m The attention layers in this model are transitioning from computing the RoPE embeddings internally through `position_ids` (2D tensor with the indexes of the tokens), to using externally computed `position_embeddings` (Tuple of tensors, containing cos and sin). In v4.46 `position_ids` will be removed and `position_embeddings` will be mandatory.
+inference_batch_size 8 num_producers 8 train_batch_size 16 train_dp_size 2
+[36m(pid=259440)[0m 'NoneType' object has no attribute 'cadam32bit_grad_fp32'
+[36m(SimpleProducer pid=259434)[0m INFO 05-06 22:51:19 __init__.py:30] Available plugins for group vllm.platform_plugins:
+[36m(SimpleProducer pid=259434)[0m INFO 05-06 22:51:19 __init__.py:32] name=ascend, value=vllm_ascend:register
+[36m(SimpleProducer pid=259434)[0m INFO 05-06 22:51:19 __init__.py:34] all available plugins for group vllm.platform_plugins will be loaded.
+[36m(SimpleProducer pid=259434)[0m INFO 05-06 22:51:19 __init__.py:36] set environment variable VLLM_PLUGINS to control which plugins to load.
+[36m(SimpleProducer pid=259434)[0m INFO 05-06 22:51:19 __init__.py:44] plugin ascend loaded.
+[36m(SimpleProducer pid=259434)[0m INFO 05-06 22:51:19 __init__.py:198] Platform plugin ascend is activated
+[36m(SimpleProducer pid=259434)[0m INFO 05-06 22:51:19 __init__.py:30] Available plugins for group vllm.general_plugins:
+[36m(SimpleProducer pid=259434)[0m INFO 05-06 22:51:19 __init__.py:32] name=ascend_enhanced_model, value=vllm_ascend:register_model
+[36m(SimpleProducer pid=259434)[0m INFO 05-06 22:51:19 __init__.py:34] all available plugins for group vllm.general_plugins will be loaded.
+[36m(SimpleProducer pid=259434)[0m INFO 05-06 22:51:19 __init__.py:36] set environment variable VLLM_PLUGINS to control which plugins to load.
+[36m(SimpleProducer pid=259434)[0m INFO 05-06 22:51:19 __init__.py:44] plugin ascend_enhanced_model loaded.
+[36m(SimpleProducer pid=259434)[0m WARNING 05-06 22:51:19 _custom_ops.py:21] Failed to import from vllm._C with ModuleNotFoundError("No module named 'vllm._C'")
+[36m(pid=259445)[0m 'NoneType' object has no attribute 'cadam32bit_grad_fp32'[32m [repeated 15x across cluster] (Ray deduplicates logs by default. Set RAY_DEDUP_LOGS=0 to disable log deduplication, or see https://docs.ray.io/en/master/ray-observability/user-guides/configure-logging.html#log-deduplication for more options.)[0m
+[36m(SimpleProducer pid=259434)[0m INFO 05-06 22:51:20 importing.py:16] Triton not installed or not compatible; certain GPU-related functions will not be available.
+[36m(SimpleProducer pid=259434)[0m WARNING 05-06 22:51:20 registry.py:351] Model architecture Qwen2VLForConditionalGeneration is already registered, and will be overwritten by the new model class vllm_ascend.models.qwen2_vl:CustomQwen2VLForConditionalGeneration.
+[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m Using GRPO config: {'lr': 1e-06, 'train_microbatch_size': 8, 'beta': 0.01, 'loss_variation': 'sample_level', 'reward_fn_type': 'boxed'}
+[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:51:19 __init__.py:30] Available plugins for group vllm.platform_plugins:[32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:51:19 __init__.py:32] name=ascend, value=vllm_ascend:register[32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:51:19 __init__.py:34] all available plugins for group vllm.platform_plugins will be loaded.[32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:51:19 __init__.py:36] set environment variable VLLM_PLUGINS to control which plugins to load.[32m [repeated 14x across cluster][0m
+[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:51:19 __init__.py:44] plugin ascend loaded.[32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:51:19 __init__.py:198] Platform plugin ascend is activated[32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:51:19 __init__.py:30] Available plugins for group vllm.general_plugins:[32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:51:19 __init__.py:32] name=ascend_enhanced_model, value=vllm_ascend:register_model[32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:51:19 __init__.py:34] all available plugins for group vllm.general_plugins will be loaded.[32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:51:19 __init__.py:44] plugin ascend_enhanced_model loaded.[32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259436)[0m WARNING 05-06 22:51:19 _custom_ops.py:21] Failed to import from vllm._C with ModuleNotFoundError("No module named 'vllm._C'")[32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:51:20 importing.py:16] Triton not installed or not compatible; certain GPU-related functions will not be available.[32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259436)[0m WARNING 05-06 22:51:21 registry.py:351] Model architecture Qwen2VLForConditionalGeneration is already registered, and will be overwritten by the new model class vllm_ascend.models.qwen2_vl:CustomQwen2VLForConditionalGeneration.[32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259434)[0m INFO 05-06 22:51:31 config.py:549] This model supports multiple tasks: {'score', 'generate', 'embed', 'classify', 'reward'}. Defaulting to 'generate'.
+[36m(SimpleProducer pid=259434)[0m INFO 05-06 22:51:31 config.py:1555] Chunked prefill is enabled with max_num_batched_tokens=2048.
+[36m(SimpleProducer pid=259434)[0m INFO 05-06 22:51:31 llm_engine.py:234] Initializing a V0 LLM engine (v0.7.3) with config: model='/home/duanjunwen/models/Qwen/Qwen2.5-7B', speculative_config=None, tokenizer='/home/duanjunwen/models/Qwen/Qwen2.5-7B', skip_tokenizer_init=False, tokenizer_mode=auto, revision=None, override_neuron_config=None, tokenizer_revision=None, trust_remote_code=True, dtype=torch.bfloat16, max_seq_len=4096, download_dir=None, load_format=auto, tensor_parallel_size=1, pipeline_parallel_size=1, disable_custom_all_reduce=False, quantization=None, enforce_eager=True, kv_cache_dtype=auto,  device_config=npu, decoding_config=DecodingConfig(guided_decoding_backend='xgrammar'), observability_config=ObservabilityConfig(otlp_traces_endpoint=None, collect_model_forward_time=False, collect_model_execute_time=False), seed=0, served_model_name=/home/duanjunwen/models/Qwen/Qwen2.5-7B, num_scheduler_steps=1, multi_step_stream_outputs=True, enable_prefix_caching=False, chunked_prefill_enabled=True, use_async_output_proc=True, disable_mm_preprocessor_cache=False, mm_processor_kwargs=None, pooler_config=None, compilation_config={"splitting_ops":[],"compile_sizes":[],"cudagraph_capture_sizes":[],"max_capture_size":0}, use_cached_outputs=False, 
+[36m(SimpleProducer pid=259443)[0m INFO 05-06 22:51:31 config.py:549] This model supports multiple tasks: {'generate', 'score', 'reward', 'classify', 'embed'}. Defaulting to 'generate'.
+[36m(SimpleProducer pid=259437)[0m INFO 05-06 22:51:31 config.py:549] This model supports multiple tasks: {'classify', 'generate', 'reward', 'score', 'embed'}. Defaulting to 'generate'.
+[36m(SimpleProducer pid=259449)[0m INFO 05-06 22:51:31 config.py:549] This model supports multiple tasks: {'score', 'reward', 'generate', 'classify', 'embed'}. Defaulting to 'generate'.
+[36m(SimpleProducer pid=259445)[0m INFO 05-06 22:51:31 config.py:549] This model supports multiple tasks: {'reward', 'generate', 'score', 'classify', 'embed'}. Defaulting to 'generate'.
+[36m(SimpleProducer pid=259434)[0m WARNING 05-06 22:51:32 utils.py:2262] Methods add_lora,add_prompt_adapter,cache_config,compilation_config,current_platform,list_loras,list_prompt_adapters,load_config,pin_lora,pin_prompt_adapter,remove_lora,remove_prompt_adapter not implemented in <vllm_ascend.worker.worker.NPUWorker object at 0xffcfdc819480>
+[36m(SimpleProducer pid=259440)[0m INFO 05-06 22:51:32 config.py:549] This model supports multiple tasks: {'embed', 'classify', 'reward', 'score', 'generate'}. Defaulting to 'generate'.
+[36m(SimpleProducer pid=259435)[0m INFO 05-06 22:51:32 config.py:549] This model supports multiple tasks: {'embed', 'score', 'reward', 'classify', 'generate'}. Defaulting to 'generate'.
+[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:51:32 config.py:549] This model supports multiple tasks: {'classify', 'generate', 'score', 'reward', 'embed'}. Defaulting to 'generate'.
+[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m [extension] Loading the JIT-built cpu_adam_arm kernel during runtime now
+[36m(GRPOConsumer pid=132985, ip=10.0.0.4)[0m Using GRPO config: {'lr': 1e-06, 'train_microbatch_size': 8, 'beta': 0.01, 'loss_variation': 'sample_level', 'reward_fn_type': 'boxed'}[32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:51:32 config.py:1555] Chunked prefill is enabled with max_num_batched_tokens=2048.[32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:51:32 llm_engine.py:234] Initializing a V0 LLM engine (v0.7.3) with config: model='/home/duanjunwen/models/Qwen/Qwen2.5-7B', speculative_config=None, tokenizer='/home/duanjunwen/models/Qwen/Qwen2.5-7B', skip_tokenizer_init=False, tokenizer_mode=auto, revision=None, override_neuron_config=None, tokenizer_revision=None, trust_remote_code=True, dtype=torch.bfloat16, max_seq_len=4096, download_dir=None, load_format=auto, tensor_parallel_size=1, pipeline_parallel_size=1, disable_custom_all_reduce=False, quantization=None, enforce_eager=True, kv_cache_dtype=auto,  device_config=npu, decoding_config=DecodingConfig(guided_decoding_backend='xgrammar'), observability_config=ObservabilityConfig(otlp_traces_endpoint=None, collect_model_forward_time=False, collect_model_execute_time=False), seed=0, served_model_name=/home/duanjunwen/models/Qwen/Qwen2.5-7B, num_scheduler_steps=1, multi_step_stream_outputs=True, enable_prefix_caching=False, chunked_prefill_enabled=True, use_async_output_proc=True, disable_mm_preprocessor_cache=False, mm_processor_kwargs=None, pooler_config=None, compilation_config={"splitting_ops":[],"compile_sizes":[],"cudagraph_capture_sizes":[],"max_capture_size":0}, use_cached_outputs=False, [32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259436)[0m WARNING 05-06 22:51:33 utils.py:2262] Methods add_lora,add_prompt_adapter,cache_config,compilation_config,current_platform,list_loras,list_prompt_adapters,load_config,pin_lora,pin_prompt_adapter,remove_lora,remove_prompt_adapter not implemented in <vllm_ascend.worker.worker.NPUWorker object at 0xffcff6cd3640>[32m [repeated 7x across cluster][0m
+[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m [extension] Time taken to load cpu_adam_arm op: 0.1460132598876953 seconds
+[36m(SimpleProducer pid=259437)[0m INFO 05-06 22:52:06 executor_base.py:111] # npu blocks: 3809, # CPU blocks: 585
+[36m(SimpleProducer pid=259437)[0m INFO 05-06 22:52:06 executor_base.py:116] Maximum concurrency for 4096 tokens per request: 119.03x
+[36m(GRPOConsumer pid=132987, ip=10.0.0.4)[0m [extension] Loading the JIT-built cpu_adam_arm kernel during runtime now[32m [repeated 7x across cluster][0m
+[36m(GRPOConsumer pid=132987, ip=10.0.0.4)[0m [extension] Time taken to load cpu_adam_arm op: 0.16289782524108887 seconds[32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259437)[0m INFO 05-06 22:52:08 llm_engine.py:436] init engine (profile, create kv cache, warmup model) took 16.79 seconds
+[36m(SimpleProducer pid=259449)[0m INFO 05-06 22:52:12 executor_base.py:111] # npu blocks: 3809, # CPU blocks: 585
+[36m(SimpleProducer pid=259449)[0m INFO 05-06 22:52:12 executor_base.py:116] Maximum concurrency for 4096 tokens per request: 119.03x
+[36m(SimpleProducer pid=259449)[0m INFO 05-06 22:52:14 llm_engine.py:436] init engine (profile, create kv cache, warmup model) took 15.55 seconds
+[36m(SimpleProducer pid=259440)[0m INFO 05-06 22:52:17 executor_base.py:111] # npu blocks: 3809, # CPU blocks: 585
+[36m(SimpleProducer pid=259440)[0m INFO 05-06 22:52:17 executor_base.py:116] Maximum concurrency for 4096 tokens per request: 119.03x
+[36m(SimpleProducer pid=259440)[0m INFO 05-06 22:52:18 llm_engine.py:436] init engine (profile, create kv cache, warmup model) took 16.44 seconds
+[36m(SimpleProducer pid=259435)[0m INFO 05-06 22:52:20 executor_base.py:111] # npu blocks: 3810, # CPU blocks: 585[32m [repeated 2x across cluster][0m
+[36m(SimpleProducer pid=259435)[0m INFO 05-06 22:52:20 executor_base.py:116] Maximum concurrency for 4096 tokens per request: 119.06x[32m [repeated 2x across cluster][0m
+[36m(SimpleProducer pid=259435)[0m INFO 05-06 22:52:22 llm_engine.py:436] init engine (profile, create kv cache, warmup model) took 18.77 seconds[32m [repeated 2x across cluster][0m
+[36m(SimpleProducer pid=259445)[0m INFO 05-06 22:52:27 executor_base.py:111] # npu blocks: 3810, # CPU blocks: 585
+[36m(SimpleProducer pid=259445)[0m INFO 05-06 22:52:27 executor_base.py:116] Maximum concurrency for 4096 tokens per request: 119.06x
+[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m [05/06/25 22:52:34] INFO     colossalai - colossalai - INFO:                                 
+[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m                              /home/duanjunwen/ColossalAI/colossalai/initialize.py:75 launch  
+[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m                     INFO     colossalai - colossalai - INFO: Distributed environment is      
+[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m                              initialized, world size: 8                                      
+[36m(SimpleProducer pid=259445)[0m INFO 05-06 22:52:29 llm_engine.py:436] init engine (profile, create kv cache, warmup model) took 16.97 seconds
+[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:52:36 executor_base.py:111] # npu blocks: 3810, # CPU blocks: 585
+[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:52:36 executor_base.py:116] Maximum concurrency for 4096 tokens per request: 119.06x
+[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:52:38 llm_engine.py:436] init engine (profile, create kv cache, warmup model) took 17.26 seconds
+[36m(SimpleProducer pid=259443)[0m INFO 05-06 22:52:49 executor_base.py:111] # npu blocks: 3810, # CPU blocks: 585
+[36m(SimpleProducer pid=259443)[0m INFO 05-06 22:52:49 executor_base.py:116] Maximum concurrency for 4096 tokens per request: 119.06x
+[36m(SimpleProducer pid=259443)[0m INFO 05-06 22:52:51 llm_engine.py:436] init engine (profile, create kv cache, warmup model) took 17.65 seconds
+[36m(SimpleProducer pid=259435)[0m [P0] num_valid_microbatches 468, nmb: 4, dl: 468
+[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m Consumer0 num_update: 117, num_recv: 4, nmb: 1
+[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m [T0] Recv data episode 0 step 0 from 0
+[36m(SimpleProducer pid=259436)[0m [P6] Send data [('input_ids', torch.Size([2, 8, 2654])), ('attention_mask', torch.Size([2, 8, 2654])), ('action_log_probs', torch.Size([2, 8, 2142])), ('action_mask', torch.Size([2, 8, 2142])), ('response_idx', torch.Size([2, 8, 2])), ('gt_answer', torch.Size([2, 8, 128]))]
+[36m(SimpleProducer pid=259445)[0m [P7] num_valid_microbatches 468, nmb: 4, dl: 468[32m [repeated 7x across cluster][0m
+[36m(GRPOConsumer pid=132988, ip=10.0.0.4)[0m Consumer7 num_update: 117, num_recv: 4, nmb: 1[32m [repeated 7x across cluster][0m
+[36m(GRPOConsumer pid=132988, ip=10.0.0.4)[0m [T7] Recv data episode 0 step 0 from 0[32m [repeated 7x across cluster][0m
+[36m(SimpleProducer pid=259440)[0m [P5] Send data [('input_ids', torch.Size([2, 8, 3944])), ('attention_mask', torch.Size([2, 8, 3944])), ('action_log_probs', torch.Size([2, 8, 3432])), ('action_mask', torch.Size([2, 8, 3432])), ('response_idx', torch.Size([2, 8, 2])), ('gt_answer', torch.Size([2, 8, 128]))]
+[36m(SimpleProducer pid=259449)[0m [P2] Send data [('input_ids', torch.Size([2, 8, 4096])), ('attention_mask', torch.Size([2, 8, 4096])), ('action_log_probs', torch.Size([2, 8, 3584])), ('action_mask', torch.Size([2, 8, 3584])), ('response_idx', torch.Size([2, 8, 2])), ('gt_answer', torch.Size([2, 8, 128]))]
+[36m(SimpleProducer pid=259435)[0m [P0] Send data [('input_ids', torch.Size([2, 8, 4096])), ('attention_mask', torch.Size([2, 8, 4096])), ('action_log_probs', torch.Size([2, 8, 3584])), ('action_mask', torch.Size([2, 8, 3584])), ('response_idx', torch.Size([2, 8, 2])), ('gt_answer', torch.Size([2, 8, 128]))][32m [repeated 4x across cluster][0m
+[36m(SimpleProducer pid=259434)[0m Rollout example:
+[36m(SimpleProducer pid=259434)[0m  system
+[36m(SimpleProducer pid=259434)[0m Please reason step by step, and put your final answer within \boxed{}.
+[36m(SimpleProducer pid=259434)[0m user
+[36m(SimpleProducer pid=259434)[0m Regular hexagon $ABCDEF$ is divided into six smaller equilateral triangles, such as $\triangle ABG$, shown in boldface in the diagram.  By connecting every other vertex, we obtain a larger equilateral triangle $\triangle ACE$, also shown in boldface.  Compute the ratio $[\triangle ABG]/[\triangle ACE]$. [asy]
+[36m(SimpleProducer pid=259434)[0m size(150); defaultpen(linewidth(0.8)); dotfactor=5;
+[36m(SimpleProducer pid=259434)[0m pair[] hex = new pair[6];
+[36m(SimpleProducer pid=259434)[0m string[] hexlabels = {"$C$","$B$","$A$","$F$","$E$","$D$"};
+[36m(SimpleProducer pid=259434)[0m hexlabels.cyclic=true;
+[36m(SimpleProducer pid=259434)[0m hex[0] = dir(0);
+[36m(SimpleProducer pid=259434)[0m for(int i = 1; i <= 6; ++i){
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m hex[i] = dir(60*i);
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m draw(hex[i] -- hex[i-1]);
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m dot(hexlabels[i],hex[i],hex[i]);
+[36m(SimpleProducer pid=259434)[0m }
+[36m(SimpleProducer pid=259434)[0m draw(hex[0]--hex[3]); draw(hex[1]--hex[4]); draw(hex[2]--hex[5]);
+[36m(SimpleProducer pid=259434)[0m draw(hex[0]--hex[2]--hex[4]--cycle,linewidth(1.3));
+[36m(SimpleProducer pid=259434)[0m draw(hex[1]--hex[2]--(0,0)--cycle,linewidth(1.3));
+[36m(SimpleProducer pid=259434)[0m dot("$G$",(0,0),2*S);
+[36m(SimpleProducer pid=259434)[0m [/asy] Let's think step by step and output the final answer within \boxed{}.
+[36m(SimpleProducer pid=259434)[0m assistant
+[36m(SimpleProducer pid=259434)[0m To compute the ratio $[\triangle ABG]/[\triangle ACE]$, we can use the formula for the area of an equilateral triangle. The area of an equilateral triangle with side length $s$ is given by $\frac{\sqrt{3}}{4} s^2$.
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m In triangle $ ACE$, the side length is $s_1$, and in triangle $ ABG$, the side length is $s_2$. To find the ratio $\frac{[\triangle ABG]}{[\triangle ACE]}$, we can use the fact that each of the smaller equilateral triangles is similar to the larger triangles.
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m Using this similarity relationship, we can express the side lengths of the triangle in terms of the length of the side of the regular hexagon, $s$. Since $AC$ is a diagonal of the hexagon, it is equal to $2s$. Therefore, we have $s_1 = 2s$. Similarly, $BG$ is half the length of $AC$, so $s_2 = \frac{1}{2}s_1 = s$.
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m Now we can calculate the areas of the triangles using the formula for the area of an equilateral triangle. We have:
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m $[\triangle ABG] = \frac{\sqrt{3}}{4} s_2^2 = \frac{\sqrt{3}}{4} s^2$
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m $[\triangle ACE] = \frac{\sqrt{3}}{4} s_1^2 = \frac{\sqrt{3}}{4} (2s)^2 = 4 \frac{\sqrt{3}}{4} s^2 = \sqrt{3} s^2$
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m Thus, the ratio is:
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m $\frac{[\triangle ABG]}{[\triangle ACE]} = \frac{\frac{\sqrt{3}}{4} s^2}{\sqrt{3} s^2} = \frac{1}{4}$
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m So the answer is $\boxed{1/4}$.
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m jifss - Factoring Example Number 1 (#17)Sheila uses rewrite congruence notation to write.info@... er Exponential notation for. tables and graphs. These notation, number, and algebra to represent information. ppt Download 7-May-2018 positano.it supportive media and humanist a are. . . . transforms to 1000000 people a year.We've made a. moving up to new social and physical challenges.Now the human. world numerical notation for. But the majority of numerals look. It our socio-cultural environment using Supernormality Theory. in essence. taking up weak, competing, ideas; they religious sects), and moreland (religious morality).taking. the Project Team include Ian Goldin. and Mike Hammond.adoption of more rational. . sum of themFind out what. time, location visiting as the day of ReFESA. Numerical notation for. CFCSC Technology Standards Explained. What are they up to?? . rounded to two decimal places, in vertrite.2 ., 34 Numerical notation for. 25 100 306.14. 8.32. 2.725 158.89. Practice Grid Version. 6.taking these developments a step further.And a recent study in a major. economic journal. . but we need to explain what exactly has changed. The core of the differences has been absent,in small doses, in even more places, . . of the U.S.professor with documentation. . . at least that it. counting without notation. for. . Allies’ Strategy PubUniver. Why? advantages. University. of. London. time. RajeshR., KenHyett and Laura. . million deaths in French- . religion." Choose correctly. [ além. pronominal] .CONQUIS. abor setting up for sub-contract, sub- and. become. Numerical notation for. 2 t Separate 4-m systems?. Mental division n. of decimal points, if necessary.The woman has exchanged a. and Certificates of 1. Our own internal. "This ability for a fast moving physical object to. numerical notation for. Original WOFR information. then doing so on. Words using at least one digital. and signals digital signals neer 1.0. . Very soon, they will learn other forms of numerical notation for. A third problem is particularly.More information . NBP09019 - AS Lighthouse Pilot 10 shipping at home. Another example could strive. The Muslim world possibly solu-. . situated. within. . 10: (12.3482 × 2^. muito bem para fazer algo; is a market. . SYD 01:30 attendance women. Learning the types of inactive buscarGood book. PRP 2010 de purchase. Mathematical
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m jifss - Factoring Example Number 1 (#17)Sheila uses rewrite congruence notation to write.info@... er Exponential notation for. tables and graphs. These notation, number, and algebra to represent information. ppt Download 7-May-2018 positano.it supportive media and humanist a are. . . . transforms to 1000000 people a year.We've made a. moving up to new social and physical challenges.Now the human. world numerical notation for. But the majority of numerals look. It our socio-cultural environment using Supernormality Theory. in essence. taking up weak, competing, ideas; they religious sects), and moreland (religious morality).taking. the Project Team include Ian Goldin. and Mike Hammond.adoption of more rational. . sum of themFind out what. time, location visiting as the day of ReFESA. Numerical notation for. CFCSC Technology Standards Explained. What are they up to?? . rounded to two decimal places, in vertrite.2 ., 34 Numerical notation for. 25 100 306.14. 8.32. 2.725 158.89. Practice Grid Version. 6.taking these developments a step further.And a recent study in a major. economic journal. . but we need to explain what exactly has changed. The core of the differences has been absent,in small doses, in even more places, . . on an international learning and distance course Series.line are initially incomplete.Achre kingdoms. providers. . not just prestige. . Our societyeven. . uses this. CAV GROUP ContactsObjectives of this Division have adopted new standards with. the top-down manner -- using. . essay on the scientific and. so achieving longer deserve 100ams in New York City.is far more important' ' . saying' ' . Video Games: Affect can become. Numerical notation for. Calculating costs. THE OR邓小, thanks ... who established city-states. in Italy viz . Notice the pattern:1, 4, 16, 64, 256, . . . Compare this with the place value notation we use in decimal system (based on multiplication with 10s from right to left; and addition in the last column). In binary system, multiplication is with 2s. So, there is a place value notation for binary numbers as well. have few practical uses, and knowledge of binary notation and. standards . The basic number system. The intuitive system of numeration used by . Numerical notation for. procedures for add, subtract, multiply, and divide numbers. needed . . Indeed, teaching of mathematics by Tamil came at the expense of making. . Both use a formal grammar to derive their programs '. ‘0/3’ £lion. . and. . Numerical notation for. while Brunet (2009) identifies a high market demand and use. Proprietary and Quantitative Regulation for, Dominance . if bourgeoise of UniversAlm mathematics. if I is a. 3.x 2² '). If for numbers are encoded. meter close to dollars.. unlimited liability so would have the)This figure includes, for the purposes of initial processing. Numerical notation for. American. For forged documents. Search examples.http://bmpdb.com/22-Misc.html cộng đồngSinhala (12345) is used for numerals (and ' 100 w public ', . establishing a workshop for digitization. . to two devices and use to multiply. file name '03Media_characters.zip'. . and . involving the study of Narcissism or Morality on a global level, ._RANGE._, means '. divided by A Можно to get meaningful results without revisiting methodological questions,. . the next mathematical realization. to 100000 personal finance articles. . to do aoi courtesies, there by. . Supernormality . some never made a spare. number of Maajnini. TERMS.Square[ FL 80. left to half of our 5' playquery ' '. The ideas. . list. of age for their Mental calculations actizing. PR = widthanth GGNnnbr hand racers,. German A EUL . coleg Www.bestpracticeseducatedUSA.eqales IU 70-80. 7 using binary arithmetic. In加拿大经验 that is. CAN operate assembler based MCUs' ' . getting the. concept. On a framework to provide a window . . Numerical notation for. e cite text[ ABP] COL 449 PHY 140R ORTH. Kamlesha point that 1000$ 'mer' meaningless methodological superiority over. " In technology. receive level must first computing converts. quit working, it was named . INTERNATIONAL. COMMUNICATION UNITED KINGDOM. for array, vector, and matrix elements. Plus. . United States anddiary system Insimon . also writes 100 years of history as extraordinary. tended. . corners to find groups of hash marks. . desperation .Phone, Internetand all manner throughout most Southern and essentially рей . searches, is. position '' (the vertical norsmen hafa account of Environmental Evaluation of. Graphed. Environment. for Numerical notation for. making adjustments by subtracting one value from the next, . were. responsible for providing a standard of days, which determination markers coming up in the Bermuda Triangle. FOR SCHOLASTIC ANIMATED GRAPHICSTring to asks letters. This is the. . . mathematical learning from step up the International. Mathematics. Curriculum & , spae, /\ refold BIOFIT Connect. US LT 12,000 Grammar and Williamiving Same solution he came up "I am arguably extrapolated the speed of Our research been graduate... ' . . . . . thousand, billion, trillion, etc. 02. . inv see '01Solution x 2 2 '01x 473所述。solution x other. Related . . Numerical notation for. 2012 The Android Four Horizons 15 18 year requirements numberWriters, Call for a solution, I have abolition of money. .. 등에 의거 후 구매Pagodas symbolism award system which Makin copies tough on Catholics: ... it out in future shipments.Will not wait. not (';
+[36m(SimpleProducer pid=259434)[0m jifss - Verical-line notifications and distribution. for. . CERT. CP #5 000 UP & Down FD 50 @ 400KCCERT. Downloaded at : Monday, March 06, 2023 Examination Timetable Original Request: solicitud at the . EmailBAXCO and CSSCO Certificate of Complexity . their support from总理. 'Customer Response Center3 . www.markistan.com Website of the. Educational Framework and Community Service hours were our greatest contribution to the HEALTH MANAGEMENT . . (Subjective. . In three years. might be conceptually strong.They. focused and . . numeral in Mathematics . born every year: 320,000 couples per. Census does not have. Subsidized children exist in an elite hierarchy, for the IDMS have industrial agreements,ad.fopoly meeting Oct 3, and significant policies and laws have been enacted, mostly in accordance with their. teaching course modules for. . p i erosion . (16;48) and. . for. . . becomes. Adding interactive. . . Marshall, of. Chapter#: All of you top prime delta is the lead when the labor relations of. LOS VERS. Marihead hand, who want the. . Who was. regardless of claims, verification, or in some cases, disputes from Take Technical Applications. young people interested. . ) . I, finally, spent 300 staff head core refracting light under his unit . . . Certificate to' ' . 670 Trading Standard. ANALYSIS provided for Mountains2 with . ' . Numerical notation for. Numbered Surgery_ . Food and Drug Administration (FDA), or. how to play in ATC thinking routinesMaster page ... for money. . . updated. tJ.|t ' . . dependent. . people as working and student residents. The interpersonal skills necessary for leading numeracy. ' .Fibus are all in the spring of same month professiona1 books and . This is the general. content Knowledge measurement feasible. CDC was established. by Congress or the ratio is . conch on in channel. direction. . moderately. elastic Council for Labor Commission technical and operational. . Meaning that words should not be separated by spaces.is characterized. You open . . to help fill the junior. placement service section how to open a file in excel No . inter-school programs a doctoral. humans. is. beginning of daily. Kurdish Women's High School goat dy_backup_updater d g 1 upbase . Basis Registers.There is a high level of responsibility in creating, maintaining, and managing a well-structured ecommerce architecture 163A level to substantially . insecure environment is uniquely crashing the browser, followed. system) and never received pay checks. . regarding videogames in . Numerical notation for. undergraduate course in mathematics. of the textbooks. . . In geographic terms . Arial" " No" " No_hi! In some cases, parents have increased the reference can not take credit for success, for. Benefits Return to . Our class hundred systems Below is a short . Pyinvoke (PIC 2:R/W CLR_FUTURE) . In contemporary mathematics, an orbit is a collection of points related by the group action of a group element. The term is most commonly used in the context of Lie groups and related group actions.The generalization of the simple idea of orbits of group actions is minimal homogeneous spaces. File- . ' . That's sad, ' he said like the activist exceptionally skilled. Board and place holders. . writing sample. and program specifically. . is explained recently. mathematics students. . as part of the. 24 hour, seven-andover. an important cultural role representations in mathematics:	this. Office of eNew under Lien/. belief of Vernon and keys in multiplication. and reduce. 08, 119 . Back to Understand Observer.Dataeye . for Suicide prevention.numer stayed quietly trou y out... a Presentation Symbolicnary, Amphibia_230-235 in System_ompute_4 in Word'. Ensure bog State equal nne 4000. Typically, this will 2 be said that productivity is a technical and economic. computer science.. The third era can be better total hours worked per week to 35 hours per week.long help us to to be grabbed by.Temporary Characteristics The current. Numerical notation for. different than the symbols in security; 2.0187 Numeric Key A Espresso HiPro Authentication/ "
+[36m(SimpleProducer pid=259434)[0m jifss - Tatiana likes to command all numbers to whisper. their Sumiantile Age GRWYLA + Adolescent subclass number's' 5 in—not surprised —that construe-to-be PT governing powers?Generation of Biorefineries(USDOE-AL ) N numbers 3 to reconstruct .. axes. to Point" by.100$, $300 oro miercion?c. 02ti $q, o zn . Numerical notation for. that these solutions are related. by philosophy. . programme and rated documents. Physics 15. Rice 12.2 Reformulate Theorem around. . . A) 0.118m B) 0.228m C) 01.29m D)2.09 Em the Ideal Smithsonian about under . ." by values inspired by my antiques objecteralscoped fire, add 100. have even look on!垠 Ented enemies You might infer B friends brokeCommon ; color all . efficient 100 for clinical Student resource teachers, the text 'ж , the UEA LATTiBOS FEIST reports. . drivens.com plan. with the computer science There rating W Normals! . metal and stain. Sure, without scumbledore for processThe forDonaldTrump In a
+[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m [T0] Recv data episode 0 step 0 from 1
+[36m(SimpleProducer pid=259434)[0m [P1] Send data [('input_ids', torch.Size([2, 8, 4096])), ('attention_mask', torch.Size([2, 8, 4096])), ('action_log_probs', torch.Size([2, 8, 3584])), ('action_mask', torch.Size([2, 8, 3584])), ('response_idx', torch.Size([2, 8, 2])), ('gt_answer', torch.Size([2, 8, 128]))]
+[36m(SimpleProducer pid=259434)[0m Rollout example:
+[36m(SimpleProducer pid=259434)[0m  system
+[36m(SimpleProducer pid=259434)[0m Please reason step by step, and put your final answer within \boxed{}.
+[36m(SimpleProducer pid=259434)[0m user
+[36m(SimpleProducer pid=259434)[0m If $f(x) = -7x^4 + 3x^3 + x - 5$, and $g(x)$ is a polynomial such that the degree of $f(x) + g(x)$ is 1, then what is the degree of $g(x)$? Let's think step by step and output the final answer within \boxed{}.
+[36m(SimpleProducer pid=259434)[0m assistant
+[36m(SimpleProducer pid=259434)[0m To determine the degree of $g(x)$, we first need to understand what we mean by the degree of a polynomial. The degree of a polynomial is the highest power of $x$ that has a non-zero coefficient. In this case, the degree of $f(x)$ is 4 because the term with the highest power of $x$ is $-7x^4$.
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m We are given that the degree of $f(x) + g(x)$ is 1. This means that when we add the two polynomials, the highest power of $x$ that has a non-zero coefficient in the resulting polynomial will be 1.
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m Since the degree of $f(x)$ is 4 and we want the degree of $f(x) + g(x)$ to be 1, we need to manipulate $g(x)$ so that when we add it to $f(x)$, the terms with powers greater than 1 cancel out. To do this, we can create $g(x)$ with terms that have powers lower than 4 and coefficients that will reduce the degree of each term when added to the corresponding term in $f(x)$. This will result in a new polynomial where the highest degree term has a power of 1.
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m To accomplish this, we need $g(x)$ to have terms with powers from 0 to 3. This will ensure that when we add $g(x)$ to $f(x)$, the terms with powers greater than 1 will cancel out, leaving us with a polynomial of degree 1.
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m Therefore, the degree of $g(x)$ should be 3.
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m cómo insertar (con el botón pinchinflejar) una imagen muestrairecibo.JPG en este documento, sin相处ovel er a bitmap o jpeg
+[36m(SimpleProducer pid=259434)[0m To insert an image titled "muestrairecibo.JPG" into the document, you'll need to use the "Insert Image" feature, which is represented by a pin-cushion-like icon. Here are the steps to insert an image:
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m 1. Open the document in a word processing software like Microsoft Word, Google Docs, or LibreOffice Writer.
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m 2. Make sure the insertion point is where you want to insert the image.
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m 3. Locate the "Insert Image" or equivalent tool. If you're using Microsoft Word, it's located under the Home tab in the picture section, or you can use the shortcut: "Insert" > "Picture" and then select "Local File." In Google Docs, you can also use the "Upload or insert file" option under the Insert tab. For LibreOffice Writer, click on the "Insert" menu, select "Picture," and then click on "File."
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m 4. A dialog box will appear. This allows you to browse to the location on your computer where "muestrairecibo.JPG" is saved.
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m 5. Navigate to the directory where the image file is located and double-click or select the file and click okay.
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m 6. The image of muestrairecibo.JPG should now appear in the document at the selected insertion point.
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m If you're experiencing trouble locating the "Insert Image" feature, consult your operating system/word processing software user manual or contact their customer support for assistance. Remember, the exact process might be slightly different based on the specific software or version you are using.
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m how to add a watermark element below the "image muesbrairecibo" file and that is automatically positioned and shrinks in relation to the image size (to left,right,top,down).
+[36m(SimpleProducer pid=259434)[0m To add a watermark below the image "muestrairecibo.JPG" and have it automatically positioned and shrink in relation to the image size, you can follow these steps for a couple of scenarios:
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m **Word Processing Software (e.g., Microsoft Word or Google Docs)**
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m 1. Insert the image: Insert the "muestrairecibo.JPG" image into your desired location within your document.
+[36m(SimpleProducer pid=259434)[0m    
+[36m(SimpleProducer pid=259434)[0m 2. Reposition the image: If needed, you can relocate the inserted image by selecting it and using your word processing software's toolbar to change the image size or position. 
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m 3. Create or upload the watermark image: Depending on which software you're using, you can either drag and drop the watermark image directly from your filesystem, or navigate through the file system dialog to locate and select the watermark image.
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m    **Google Docs:** Click the "Insert" menu, then select "Image" or "Watermark"
+[36m(SimpleProducer pid=259434)[0m    
+[36m(SimpleProducer pid=259434)[0m    **Microsoft Word:** Click the "Insert" tab, then select "Watermark"
+[36m(SimpleProducer pid=259434)[0m    
+[36m(SimpleProducer pid=259434)[0m 4. Drag the watermark image to the desired location below the inserted "muestrairecibo.JPG" image.
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m 5. Customizing the watermark:
+[36m(SimpleProducer pid=259434)[0m    - If you need more control over the position and size of the watermark in relation to the image, you might have to crop and resize the watermark file manually for each image or automate this process in a custom solution (chosen from steps below).
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m **Automating the Positioning and Shrinkage (Advanced, Using VBA for Microsoft Word or Google Apps Script for Google Docs)**
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m - **Microsoft Word (using VBA):** You might need to code a VBA macro to detect the image size, create a proportionally sized watermark image based on that size, and place the watermark image in the correct location. This would involve a more technical approach, requiring knowledge of Visual Basic for Applications.
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m - **Google Docs (using Google Apps Script):** With Google Apps Script, you can write code to automate the resizing and positioning of the watermark based on the size of the document's images. For this example: create a new Google App Script, and write code to create a watermark with reduced opacity and automatically position and resize it relative to the inserted image. It would require some programming experience.
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m In general, custom automation solutions (both VBA for Microsoft Word and Google Apps Script for Google Docs) usually involve breaking the tasks down into several steps and writing code to perform each step where you want the automation to occur – often triggered by a specific action, such as 'on open' or 'after insertion' of an image.
+[36m(SimpleProducer pid=259434)[0m 
+[36m(SimpleProducer pid=259434)[0m Remember to properly save your changes after each step and, if needed, test the watermark placement and resizing with different image sizes.
+[36m(SimpleProducer pid=259434)[0m [P1] Send data [('input_ids', torch.Size([2, 8, 2150])), ('attention_mask', torch.Size([2, 8, 2150])), ('action_log_probs', torch.Size([2, 8, 1638])), ('action_mask', torch.Size([2, 8, 1638])), ('response_idx', torch.Size([2, 8, 2])), ('gt_answer', torch.Size([2, 8, 128]))]
+[36m(GRPOConsumer pid=132988, ip=10.0.0.4)[0m [T7] Recv data episode 0 step 0 from 0[32m [repeated 63x across cluster][0m
+[36m(SimpleProducer pid=259436)[0m [P6] Send data [('input_ids', torch.Size([2, 8, 2692])), ('attention_mask', torch.Size([2, 8, 2692])), ('action_log_probs', torch.Size([2, 8, 2180])), ('action_mask', torch.Size([2, 8, 2180])), ('response_idx', torch.Size([2, 8, 2])), ('gt_answer', torch.Size([2, 8, 128]))]
+[36m(SimpleProducer pid=259437)[0m [P3] Send data [('input_ids', torch.Size([2, 8, 3683])), ('attention_mask', torch.Size([2, 8, 3683])), ('action_log_probs', torch.Size([2, 8, 3171])), ('action_mask', torch.Size([2, 8, 3171])), ('response_idx', torch.Size([2, 8, 2])), ('gt_answer', torch.Size([2, 8, 128]))]
+[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m [T0] Recv data episode 0 step 0 from 1
+[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m [T0] Recv data episode 0 step 0 from 2
+[36m(SimpleProducer pid=259443)[0m [P4] Send data [('input_ids', torch.Size([2, 8, 3556])), ('attention_mask', torch.Size([2, 8, 3556])), ('action_log_probs', torch.Size([2, 8, 3044])), ('action_mask', torch.Size([2, 8, 3044])), ('response_idx', torch.Size([2, 8, 2])), ('gt_answer', torch.Size([2, 8, 128]))]
+[36m(SimpleProducer pid=259435)[0m [P0] Send data [('input_ids', torch.Size([2, 8, 4096])), ('attention_mask', torch.Size([2, 8, 4096])), ('action_log_probs', torch.Size([2, 8, 3584])), ('action_mask', torch.Size([2, 8, 3584])), ('response_idx', torch.Size([2, 8, 2])), ('gt_answer', torch.Size([2, 8, 128]))]
+[36m(GRPOConsumer pid=132988, ip=10.0.0.4)[0m [T7] Recv data episode 0 step 0 from 2[32m [repeated 14x across cluster][0m
+[36m(SimpleProducer pid=259449)[0m [P2] Send data [('input_ids', torch.Size([2, 8, 4096])), ('attention_mask', torch.Size([2, 8, 4096])), ('action_log_probs', torch.Size([2, 8, 3584])), ('action_mask', torch.Size([2, 8, 3584])), ('response_idx', torch.Size([2, 8, 2])), ('gt_answer', torch.Size([2, 8, 128]))][32m [repeated 2x across cluster][0m
+Traceback (most recent call last):
+  File "/home/duanjunwen/ColossalAI/applications/ColossalChat/rl_example.py", line 202, in <module>
+    launch_distributed(
+  File "/home/duanjunwen/ColossalAI/applications/ColossalChat/coati/distributed/launch.py", line 120, in launch_distributed
+    ray.get([p.loop.remote() for p in procs])
+  File "/usr/local/python3.10/lib/python3.10/site-packages/ray/_private/auto_init_hook.py", line 21, in auto_init_wrapper
+    return fn(*args, **kwargs)
+  File "/usr/local/python3.10/lib/python3.10/site-packages/ray/_private/client_mode_hook.py", line 103, in wrapper
+    return func(*args, **kwargs)
+  File "/usr/local/python3.10/lib/python3.10/site-packages/ray/_private/worker.py", line 2771, in get
+    values, debugger_breakpoint = worker.get_objects(object_refs, timeout=timeout)
+  File "/usr/local/python3.10/lib/python3.10/site-packages/ray/_private/worker.py", line 919, in get_objects
+    raise value.as_instanceof_cause()
+ray.exceptions.RayTaskError(RuntimeError): [36mray::GRPOConsumer.loop()[39m (pid=132985, ip=10.0.0.4, actor_id=c8d5c4ebd0eed225bc8efefb01000000, repr=<coati.distributed.grpo_consumer.GRPOConsumer object at 0xffcfb775c610>)
+  File "/home/duanjunwen/ColossalAI/applications/ColossalChat/coati/distributed/consumer.py", line 141, in loop
+    loss, num_excessive_prompts = self.step(i, pbar, **batch)
+  File "/home/duanjunwen/ColossalAI/applications/ColossalChat/coati/distributed/grpo_consumer.py", line 391, in step
+    policy_model_outputs = self.booster.execute_pipeline(
+  File "/home/duanjunwen/ColossalAI/colossalai/booster/booster.py", line 221, in execute_pipeline
+    return self.plugin.execute_pipeline(data_iter, model, criterion, optimizer, return_loss, return_outputs)
+  File "/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py", line 1409, in execute_pipeline
+    outputs = self.scheduler.forward_backward_step(
+  File "/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py", line 472, in forward_backward_step
+    result = self.run_forward_backward(model, data_iter, criterion, optimizer, return_loss, return_outputs)
+  File "/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py", line 416, in run_forward_backward
+    input_obj_grad = self.backward_step(optimizer, input_obj, output_obj, output_obj_grad)
+  File "/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py", line 305, in backward_step
+    optimizer.backward(output_obj)
+  File "/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py", line 807, in backward
+    super().backward(loss, inputs=inputs, retain_graph=retain_graph)
+  File "/home/duanjunwen/ColossalAI/colossalai/zero/low_level/low_level_optim.py", line 461, in backward
+    loss.backward(inputs=inputs, retain_graph=retain_graph)
+  File "/usr/local/python3.10/lib/python3.10/site-packages/torch/_tensor.py", line 581, in backward
+    torch.autograd.backward(
+  File "/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/__init__.py", line 347, in backward
+    _engine_run_backward(
+  File "/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/graph.py", line 825, in _engine_run_backward
+    return Variable._execution_engine.run_backward(  # Calls into the C++ engine to run the backward pass
+  File "/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py", line 307, in apply
+    return user_fn(self, *args)
+  File "/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py", line 231, in backward
+    softmax_logits_2d[torch.arange(0, softmax_logits_2d.shape[0]), masked_target_1d] -= update
+RuntimeError: NPU out of memory. Tried to allocate 4.67 GiB (NPU 0; 60.96 GiB total capacity; 32.79 GiB already allocated; 32.79 GiB current active; 3.34 GiB free; 52.71 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation.
+[36m(GRPOConsumer pid=132988, ip=10.0.0.4)[0m The attention layers in this model are transitioning from computing the RoPE embeddings internally through `position_ids` (2D tensor with the indexes of the tokens), to using externally computed `position_embeddings` (Tuple of tensors, containing cos and sin). In v4.46 `position_ids` will be removed and `position_embeddings` will be mandatory.[32m [repeated 7x across cluster][0m
+[ERROR] 2025-05-06-22:59:02 (PID:258963, Device:0, RankID:-1) ERR99999 UNKNOWN applicaiton exception
+[36m(GRPOConsumer pid=132988, ip=10.0.0.4)[0m [T7] Recv data episode 0 step 0 from 7[32m [repeated 40x across cluster][0m
+[36m(SimpleProducer pid=259440)[0m [P5] Send data [('input_ids', torch.Size([2, 8, 4096])), ('attention_mask', torch.Size([2, 8, 4096])), ('action_log_probs', torch.Size([2, 8, 3584])), ('action_mask', torch.Size([2, 8, 3584])), ('response_idx', torch.Size([2, 8, 2])), ('gt_answer', torch.Size([2, 8, 128]))]
diff --git a/applications/ColossalChat/coati/distributed/consumer.py b/applications/ColossalChat/coati/distributed/consumer.py
index d04ffae2ff8f..453499f03fd5 100644
--- a/applications/ColossalChat/coati/distributed/consumer.py
+++ b/applications/ColossalChat/coati/distributed/consumer.py
@@ -57,9 +57,11 @@ def __init__(
 
         # self.device = get_current_device()
         self.device = 'npu'
+        # self.device = torch.device(f"npu:{torch.npu.current_device()}")
         self.lr_scheduler = None
 
     def setup(self) -> None:
+        print(f"self.rank {self.rank} self.world_size {self.world_size} self.master_addr {self.master_addr} self.master_port {self.master_port}")
         launch(self.rank, self.world_size, self.master_addr, self.master_port, local_rank=0)
 
         plugin_config = dict(tp_size=1, pp_size=1, precision="bf16", zero_stage=2)
@@ -82,7 +84,7 @@ def setup(self) -> None:
 
         # Init Hybrid ray process group
         for i in range(self.num_producers):
-            cc.init_collective_group(self.world_size + 1, self.rank + 1, group_name=f"sync_data_{i}")
+            cc.init_collective_group(self.world_size + 1, self.rank + 1, backend='hccl',group_name=f"sync_data_{i}")
         if self.pp_size > 1:
             # use hybrid tp + pp
             if self.tp_rank == 0 and self.dp_rank == 0:
diff --git a/applications/ColossalChat/coati/distributed/launch.py b/applications/ColossalChat/coati/distributed/launch.py
index a346d1d4fae9..14b39ab21431 100644
--- a/applications/ColossalChat/coati/distributed/launch.py
+++ b/applications/ColossalChat/coati/distributed/launch.py
@@ -58,6 +58,7 @@ def launch_distributed(
         core_consumer = ALGO_MAP.get(core_algo, SimpleConsumer)
 
     train_dp_size = get_dp_size_fast(num_consumer_procs, plugin_config)
+    print(f"inference_batch_size {inference_batch_size} num_producers {num_producers} train_batch_size {train_batch_size} train_dp_size {train_dp_size}")
     assert (inference_batch_size * num_producers) % (train_batch_size * train_dp_size) == 0
 
     dataset_path = dataset_config["path"]
@@ -66,9 +67,100 @@ def launch_distributed(
     num_update_per_episode = num_samples // global_inference_batch_size
     num_recv_per_update = inference_batch_size // inference_microbatch_size
 
-    procs = []
+    # ###########################################
+    # # Old version, may lead colossalai init stuck in multinodes
+    # ############################################
+    # procs = []
+    # for i in range(num_producers):
+    #     # producer = SimpleProducer.options(num_gpus=num_proc_per_producer).remote(
+    #     producer = SimpleProducer.options(num_cpus=1, resources={"NPU":num_proc_per_producer}).remote(
+    #         producer_idx=i,
+    #         num_producers=num_producers,
+    #         num_consumer_procs=num_consumer_procs,
+    #         num_episodes=num_episodes,
+    #         batch_size=inference_batch_size,
+    #         dataset_config=dataset_config,
+    #         dataloaders_config=dataloaders_config,
+    #         model_config=inference_model_config,
+    #         generate_config=generate_config,
+    #         tokenizer_config=tokenizer_config,
+    #         microbatch_size=inference_microbatch_size,
+    #         backend=inference_backend,
+    #         num_generations=num_generations,
+    #         consumer_plugin_config=plugin_config,
+    #     )
+    #     procs.append(producer)
+    # generate_config_consumer = copy.deepcopy(generate_config)
+    # generate_config_consumer.update(
+    #     dict(
+    #         backend=inference_backend,
+    #     )
+    # )
+    # for i in range(num_consumer_procs):
+    #     # consumer = core_consumer.options(num_gpus=1).remote(
+    #     consumer = core_consumer.options(num_cpus=1, resources={"NPU":1}).remote(
+    #         num_producers=num_producers,
+    #         num_episodes=num_episodes,
+    #         rank=i,
+    #         world_size=num_consumer_procs,
+    #         master_addr=master_addr,
+    #         master_port=master_port,
+    #         num_update_per_episode=num_update_per_episode,
+    #         num_recv_per_update=num_recv_per_update,
+    #         batch_size=train_batch_size,
+    #         model_config=train_model_config,
+    #         plugin_config=plugin_config,
+    #         minibatch_size=train_minibatch_size,
+    #         generate_config=generate_config_consumer,
+    #         grpo_config=grpo_config,
+    #         num_generations=num_generations,
+    #         project_name=project_name,
+    #         save_interval=save_interval,
+    #         save_dir=save_dir,
+    #     )
+    #     procs.append(consumer)
+    # ray.get([p.setup.remote() for p in procs])
+    # ray.get([p.loop.remote() for p in procs])
+    
+    ###########################################
+    # New version, assign master ip for colossalai & vllm respectively
+    ###########################################
+    nodes = ray.nodes()
+    node_info = {
+        node["NodeID"]: {
+            # "num_gpus": node["Resources"].get("GPU", 0),
+            "num_gpus": node["Resources"].get("NPU", 0),
+            "address": node["NodeManagerAddress"],
+        }  # Default to 0 if no GPUs are available
+        for node in nodes
+    }
+    print(f"node_info {node_info}")
+    gpu_to_node_id = []
+    gpu_to_ip_address = []
+    for node_id in node_info:
+        for idx in range(int(node_info[node_id]["num_gpus"])): # use num_gpus instead of num_npus
+            gpu_to_node_id.append(node_id)
+            gpu_to_ip_address.append(node_info[node_id]["address"])
+    print(f"node_info {node_info} \n gpu_to_node_id {gpu_to_node_id} \n gpu_to_ip_address {gpu_to_ip_address} \n")
+
+    producer_procs = []
+    
     for i in range(num_producers):
-        producer = SimpleProducer.options(num_gpus=num_proc_per_producer).remote(
+        node_id = gpu_to_node_id[0]
+        producer_ip_address = gpu_to_ip_address[0]
+        for _ in range(num_proc_per_producer):
+            gpu_to_node_id.pop(0)
+            gpu_to_ip_address.pop(0)
+        print(f"Schedual Producer P[{i}] which requires {num_proc_per_producer} GPUs on node {producer_ip_address}")
+        
+        producer = SimpleProducer.options(
+            num_cpus=1,
+            resources={"NPU":num_proc_per_producer},
+            scheduling_strategy=ray.util.scheduling_strategies.NodeAffinitySchedulingStrategy(
+                node_id=node_id,
+                soft=False,
+            ),
+        ).remote(
             producer_idx=i,
             num_producers=num_producers,
             num_consumer_procs=num_consumer_procs,
@@ -84,20 +176,36 @@ def launch_distributed(
             num_generations=num_generations,
             consumer_plugin_config=plugin_config,
         )
-        procs.append(producer)
+        producer_procs.append(producer)
+    ray.get([p.setup.remote() for p in producer_procs])
     generate_config_consumer = copy.deepcopy(generate_config)
     generate_config_consumer.update(
         dict(
             backend=inference_backend,
         )
     )
+    consumer_master_ip_address = gpu_to_ip_address[0]
+    print(f"Use {consumer_master_ip_address} as master address for torch DDP.")
+    consumer_procs = []
     for i in range(num_consumer_procs):
-        consumer = core_consumer.options(num_gpus=1).remote(
+        node_id = gpu_to_node_id[0]
+        consumer_ip_address = gpu_to_ip_address[0]
+        gpu_to_node_id.pop(0)
+        gpu_to_ip_address.pop(0)
+        print(f"Schedual Consumer T[{i}] which requires 1 GPUs on node {consumer_ip_address}")
+        consumer = core_consumer.options(
+            resources={"NPU":1},
+            scheduling_strategy=ray.util.scheduling_strategies.NodeAffinitySchedulingStrategy(
+                node_id=node_id,
+                soft=False,
+            ),
+        ).remote(
             num_producers=num_producers,
             num_episodes=num_episodes,
             rank=i,
             world_size=num_consumer_procs,
-            master_addr=master_addr,
+            # master_addr=master_addr,
+            master_addr=consumer_master_ip_address,
             master_port=master_port,
             num_update_per_episode=num_update_per_episode,
             num_recv_per_update=num_recv_per_update,
@@ -112,6 +220,6 @@ def launch_distributed(
             save_interval=save_interval,
             save_dir=save_dir,
         )
-        procs.append(consumer)
-    ray.get([p.setup.remote() for p in procs])
-    ray.get([p.loop.remote() for p in procs])
+        consumer_procs.append(consumer)
+    ray.get([p.setup.remote() for p in consumer_procs])
+    ray.get([p.loop.remote() for p in (producer_procs + consumer_procs)])
diff --git a/applications/ColossalChat/coati/distributed/producer.py b/applications/ColossalChat/coati/distributed/producer.py
index c45ddd450fb4..f1cc583f6feb 100644
--- a/applications/ColossalChat/coati/distributed/producer.py
+++ b/applications/ColossalChat/coati/distributed/producer.py
@@ -72,6 +72,7 @@ def __init__(
         )
         # self.device = get_current_device()
         self.device = 'npu'
+        # self.device = torch.device(f"npu:{torch.npu.current_device()}")
 
         # init backend
         if backend in BACKEND_MAP:
@@ -120,7 +121,7 @@ def loop(self) -> None:
                     ]
                     * outputs["input_ids"].size(0)
                 ).to(outputs["input_ids"].device)
-                outputs = pre_send(outputs)
+                # outputs = pre_send(outputs)
                 ray_broadcast_tensor_dict(
                     outputs, src=0, device=self.device, group_name=f"sync_data_{self.producer_idx}"
                 )
diff --git a/applications/ColossalChat/fusion_result.json b/applications/ColossalChat/fusion_result.json
new file mode 100644
index 000000000000..ec747fa47ddb
--- /dev/null
+++ b/applications/ColossalChat/fusion_result.json
@@ -0,0 +1 @@
+null
\ No newline at end of file
diff --git a/applications/ColossalChat/kernel_meta/buildPidInfo.json b/applications/ColossalChat/kernel_meta/buildPidInfo.json
index 7194c917d7ed..804df5b51270 100644
--- a/applications/ColossalChat/kernel_meta/buildPidInfo.json
+++ b/applications/ColossalChat/kernel_meta/buildPidInfo.json
@@ -1,6 +1,14 @@
 [
     [
-        3383334,
-        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_18208839462778721971"
+        1287410,
+        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_5195361436236851103"
+    ],
+    [
+        1287412,
+        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_14660501106417545923"
+    ],
+    [
+        1287422,
+        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_10947606003133373928"
     ]
 ]
\ No newline at end of file
diff --git a/applications/ColossalChat/rl_example.py b/applications/ColossalChat/rl_example.py
index 18948a569642..fe1663500faf 100644
--- a/applications/ColossalChat/rl_example.py
+++ b/applications/ColossalChat/rl_example.py
@@ -155,7 +155,7 @@
                 enforce_eager=True,
                 enable_chunked_prefill=True,
                 max_model_len=args.max_new_tokens + args.max_prompt_tokens,
-                tensor_parallel_size=2,
+                tensor_parallel_size=1,
             )
         )
         generate_config.update(
@@ -223,10 +223,10 @@
         #     "zero_stage": 2,
         # },  # for zero
         plugin_config={
-            "tp_size": 2,
-            "pp_size": 2,
+            "tp_size": 8,
+            "pp_size": 3,
             "microbatch_size": max(
-                1, args.train_microbatch_size // 2
+                1, args.train_microbatch_size // 3
             ),  # microbatch size should be set to train_microbatch_size // pp_size
             "zero_stage": 1,
             "max_norm": 1.0,
diff --git a/applications/ColossalChat/tests/test_hybrid.py b/applications/ColossalChat/tests/test_hybrid.py
new file mode 100644
index 000000000000..ed3e22351761
--- /dev/null
+++ b/applications/ColossalChat/tests/test_hybrid.py
@@ -0,0 +1,143 @@
+import torch
+import torch.distributed as dist
+from coati.dataset.loader import RawConversationDataset
+from torch.utils.data import Dataset
+from tqdm import tqdm
+from transformers import AutoTokenizer, Qwen2ForCausalLM
+
+import colossalai
+from colossalai.accelerator import get_accelerator
+from colossalai.booster import Booster
+from colossalai.booster.plugin import HybridParallelPlugin, Plugin
+from colossalai.cluster import DistCoordinator
+from colossalai.nn.optimizer import HybridAdam
+
+BATCH_SIZE = 4
+NUM_EPOCHS = 3
+LEARNING_RATE = 2e-5
+GRADIENT_ACCUMULATION_STEPS = 1
+DATA_PATH = "/home/duanjunwen/datasets/math_dataset.jsonl"
+MODEL_PATH = "/home/duanjunwen/models/Qwen/Qwen2.5-14B"
+Device = torch.device("npu" if torch.npu.is_available() else "cpu")
+
+class RandomDataset(Dataset):
+    def __init__(self, num_samples, sequence_length, vocab_size=10000):
+        self.num_samples = num_samples
+        self.sequence_length = sequence_length
+        self.vocab_size = vocab_size
+        self.input_idx = torch.randint(0, vocab_size, (num_samples, sequence_length))
+        self.attention_mask = torch.randint(0, 2, (num_samples, sequence_length), dtype=torch.long)
+
+    def __len__(self):
+        return self.num_samples
+
+    def __getitem__(self, idx):
+        return {"input_ids": self.input_idx[idx], "attention_mask": self.attention_mask[idx]}
+
+def load_model_and_tokenizer():
+    attn_impl = "eager" if get_accelerator().name == "npu" else "flash_attention_2"
+    tokenizer = AutoTokenizer.from_pretrained(
+        MODEL_PATH,
+        trust_remote_code=True,
+        attn_implementation=attn_impl,
+    )
+    model = Qwen2ForCausalLM.from_pretrained(MODEL_PATH, trust_remote_code=True)
+    return tokenizer, model
+
+def all_reduce_mean(loss: torch.Tensor, plugin: Plugin) -> torch.Tensor:
+    loss = loss.data
+    group = getattr(plugin, "dp_group", None)
+    dist.all_reduce(loss, group=group)
+    return loss / dist.get_world_size(group)
+
+def test_hybrid_qwen():
+    colossalai.launch_from_torch()
+    get_accelerator()
+    coordinator = DistCoordinator()
+    tokenizer, model = load_model_and_tokenizer()
+    # dataset = RandomDataset(num_samples=100, sequence_length=2304)
+    dataset = RawConversationDataset(tokenizer, DATA_PATH, 1024,  system_prompt="Please reason step by step, and put your final answer within \\boxed{}.")
+    # dataloader = DataLoader(dataset, batch_size=BATCH_SIZE, shuffle=True)
+
+    optimizer = HybridAdam(model.parameters(), lr=LEARNING_RATE)
+    plugin = HybridParallelPlugin(
+        tp_size=8, 
+        pp_size=1, 
+        precision="bf16", 
+        zero_stage=2, 
+        cpu_offload=True,
+    )
+    # plugin = HybridParallelPlugin(tp_size=2, pp_size=2, precision="bf16", zero_stage=1, num_microbatches=4, enable_flash_attention=True)
+
+    dataloader = plugin.prepare_dataloader(
+        dataset=dataset,
+        batch_size=BATCH_SIZE,
+        shuffle=True,
+        drop_last=True,
+    )
+
+    booster = Booster(plugin=plugin)
+
+    model, optimizer, _, dataloader, _ = booster.boost(model, optimizer, None, dataloader)
+
+    def is_master():
+        if isinstance(plugin, HybridParallelPlugin) and plugin.pp_size > 1:
+            return coordinator.rank == coordinator.world_size - 1
+        return coordinator.is_master()
+
+    #####
+    # train
+    #####
+    model.train()
+
+    for epoch in range(NUM_EPOCHS):
+        if booster.plugin.pp_size > 1:
+            data_iter = iter(dataloader)
+            step_bar = tqdm(
+                range(len(dataloader)),
+                desc="Step",
+                disable=not is_master(),
+            )
+            for step in step_bar:
+                print(f"data_iter {data_iter}")
+                outputs = booster.execute_pipeline(
+                    data_iter,
+                    model,
+                    criterion=lambda outputs, inputs: outputs[0],
+                    optimizer=optimizer,
+                    return_loss=True,
+                )
+                loss = outputs["loss"]
+                if booster.plugin.stage_manager.is_last_stage():
+                    global_loss = all_reduce_mean(loss, plugin)
+
+                optimizer.step()
+
+                if booster.plugin.stage_manager.is_last_stage():
+                    grad_norm = optimizer.get_grad_norm()
+                    step_bar.set_postfix({"loss": global_loss.item(), "grad_norm": grad_norm})
+
+                optimizer.step()
+                optimizer.zero_grad()
+        else:
+            total_loss = 0
+            for step, batch in enumerate(dataloader):
+                input_ids = batch["input_ids"].to(device=model.module.device)
+                attention_mask = batch["attention_mask"].to(device=model.module.device)
+                outputs = model(input_ids=input_ids, attention_mask=attention_mask, labels=input_ids)
+                loss = outputs.loss
+                print(f"loss {loss}")
+                loss = loss / GRADIENT_ACCUMULATION_STEPS
+                booster.backward(loss, optimizer)
+                print(f"finish backward")
+                if (step + 1) % GRADIENT_ACCUMULATION_STEPS == 0:
+                    optimizer.step()
+                    optimizer.zero_grad()
+                    print(f"finish optimizer step")
+
+                total_loss += loss.item()
+
+        print(f"Epoch {epoch + 1}, Loss: {total_loss / len(dataloader)}")
+
+if __name__ == "__main__":
+    test_hybrid_qwen()
diff --git a/applications/ColossalChat/tests/test_ray.py b/applications/ColossalChat/tests/test_ray.py
new file mode 100644
index 000000000000..ca2f1456adef
--- /dev/null
+++ b/applications/ColossalChat/tests/test_ray.py
@@ -0,0 +1,88 @@
+import ray
+import time
+import ray.util.collective as cc
+import torch
+from coati.distributed.comm import ray_broadcast_object, ray_broadcast_tensor_dict
+
+from colossalai.testing import parameterize
+
+@ray.remote(num_cpus=1, num_gpus=0, resources={"NPU": 1})
+class Worker:
+    def __init__(self, rank, world_size):
+        self.rank = rank
+        self.world_size = world_size
+        self.group_name = "default"
+        cc.init_collective_group(world_size, rank, backend="hccl", group_name=self.group_name)
+    def run_ray_broadcast_object(self, obj, src, device):
+        # ray_broadcast_object
+        received_obj = ray_broadcast_object(obj, src, device, group_name=self.group_name)
+        return received_obj
+
+    def run_ray_broadcast_tensor_dict(self, tensor_dict, src, device):
+        # ray_broadcast_tensor_dict
+        received_dict = ray_broadcast_tensor_dict(tensor_dict, src, device, group_name=self.group_name)
+        return received_dict
+
+    def destroy_worker(self):
+        cc.destroy_collective_group(self.group_name)
+
+@parameterize(
+    "test_config",
+    [
+        {
+            "precision": torch.bfloat16,
+            "device": "npu",
+            "num_devices": 8,
+        },
+    ],
+)
+def test_comm(test_config):
+    #ray.init()
+    ray.init(address="local", namespace="ray-example")
+    # ray.init(_node_ip_address='10.0.0.5', namespace="ray-example")
+
+    src = 0
+    device = test_config["device"]
+    # create 4
+    workers = [Worker.remote(i, test_config["num_devices"]) for i in range(test_config["num_devices"])]
+
+    #############
+    # 1. test ray_broadcast_object
+    #############
+    # init broadcast_object data
+    test_obj = {"data": torch.tensor([1, 2, 3]), "message": "hello"}
+
+    # run run_ray_broadcast_object
+    results = [worker.run_ray_broadcast_object.remote(test_obj, src, device) for worker in workers]
+
+    time.sleep(60)
+    # get result
+    results = ray.get(results)
+
+    for i, result in enumerate(results):
+        print(f"ray_broadcast_object Rank {i} received object: {result}")
+
+    #############
+    # 2. test ray_broadcast_tensor_dict
+    #############
+    test_tensor_dict = {
+        "tensor1": torch.tensor([1, 2, 3], device=device),
+        "tensor2": torch.tensor([[4, 5], [6, 7]], device=device),
+    }
+
+    # run ray_broadcast_tensor_dict
+    results = [worker.run_ray_broadcast_tensor_dict.remote(test_tensor_dict, src, device) for worker in workers]
+
+    # get result
+    results = ray.get(results)
+
+    for i, result in enumerate(results):
+        print(f"run_ray_broadcast_tensor_dict Rank {i} received object: {result}")
+
+    # destory workers
+    for worker in workers:
+        worker.destroy_worker.remote()
+    ray.shutdown()
+
+if __name__ == "__main__":
+    test_comm()
\ No newline at end of file
diff --git a/applications/ColossalChat/tests/test_vllm.py b/applications/ColossalChat/tests/test_vllm.py
new file mode 100644
index 000000000000..325ddc0a9693
--- /dev/null
+++ b/applications/ColossalChat/tests/test_vllm.py
@@ -0,0 +1,27 @@
+from vllm import LLM, SamplingParams
+import torch
+import argparse
+
+parser = argparse.ArgumentParser(description='VLLM args.')
+parser.add_argument("-m", "--model_path", type=str, default="/home/duanjunwen/models/Qwen/Qwen2.5-14B", help="The model path. ")
+parser.add_argument("-l", "--max_length", type=int, default=8192, help="Max sequence length")
+parser.add_argument("-tp", "--tp_size", type=int, default=8, help="Gpu nums")
+parser.add_argument("-pp", "--pp_size", type=int, default=2, help="Gpu nums")
+parser.add_argument("-t", "--temperature", type=float, default=0.8, help="Temperature")
+parser.add_argument("--top_p", type=float, default=0.95, help="Top p")
+parser.add_argument("-i", "--input_texts", type=str, default="Find all prime numbers up to 100.", help="Prompts inputs. ")
+args = parser.parse_args()
+
+# Create a sampling params object.
+sampling_params = SamplingParams(temperature=args.temperature, top_p=args.top_p, max_tokens=args.max_length)
+
+# Create an LLM.
+llm = LLM(model=args.model_path, max_model_len=args.max_length, tensor_parallel_size=args.tp_size, pipeline_parallel_size=args.pp_size)
+# Generate texts from the prompts. The output is a list of RequestOutput objects
+# that contain the prompt, generated text, and other information.
+outputs = llm.generate(args.input_texts, sampling_params)
+# Print the outputs.
+for output in outputs:
+    prompt = output.prompt
+    generated_text = output.outputs[0].text
+    print(f"Prompt: {prompt!r}, Generated text: {generated_text}")
\ No newline at end of file
diff --git a/applications/ColossalChat/tests/test_vllm_multinode.py b/applications/ColossalChat/tests/test_vllm_multinode.py
new file mode 100644
index 000000000000..0434c48e1e92
--- /dev/null
+++ b/applications/ColossalChat/tests/test_vllm_multinode.py
@@ -0,0 +1,108 @@
+"""
+This example shows how to use Ray Data for running offline batch inference
+distributively on a multi-nodes cluster.
+
+Learn more about Ray Data in https://docs.ray.io/en/latest/data/data.html
+"""
+
+from typing import Any, Dict, List
+
+import numpy as np
+import ray
+from packaging.version import Version
+from ray.util.scheduling_strategies import PlacementGroupSchedulingStrategy
+
+from vllm import LLM, SamplingParams
+
+assert Version(ray.__version__) >= Version(
+    "2.22.0"), "Ray version must be at least 2.22.0"
+
+# Create a sampling params object.
+sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
+
+# Set tensor parallelism per instance.
+tensor_parallel_size = 1
+
+# Set number of instances. Each instance will use tensor_parallel_size GPUs.
+num_instances = 1
+
+
+# Create a class to do batch inference.
+class LLMPredictor:
+
+    def __init__(self):
+        # Create an LLM.
+        self.llm = LLM(model="meta-llama/Llama-2-7b-chat-hf",
+                       tensor_parallel_size=tensor_parallel_size)
+
+    def __call__(self, batch: Dict[str, np.ndarray]) -> Dict[str, list]:
+        # Generate texts from the prompts.
+        # The output is a list of RequestOutput objects that contain the prompt,
+        # generated text, and other information.
+        outputs = self.llm.generate(batch["text"], sampling_params)
+        prompt: List[str] = []
+        generated_text: List[str] = []
+        for output in outputs:
+            prompt.append(output.prompt)
+            generated_text.append(' '.join([o.text for o in output.outputs]))
+        return {
+            "prompt": prompt,
+            "generated_text": generated_text,
+        }
+
+
+# Read one text file from S3. Ray Data supports reading multiple files
+# from cloud storage (such as JSONL, Parquet, CSV, binary format).
+ds = ray.data.read_text("s3://anonymous@air-example-data/prompts.txt")
+
+
+# For tensor_parallel_size > 1, we need to create placement groups for vLLM
+# to use. Every actor has to have its own placement group.
+def scheduling_strategy_fn():
+    # One bundle per tensor parallel worker
+    pg = ray.util.placement_group(
+        [{
+            "GPU": 1,
+            "CPU": 1
+        }] * tensor_parallel_size,
+        strategy="STRICT_PACK",
+    )
+    return dict(scheduling_strategy=PlacementGroupSchedulingStrategy(
+        pg, placement_group_capture_child_tasks=True))
+
+
+resources_kwarg: Dict[str, Any] = {}
+if tensor_parallel_size == 1:
+    # For tensor_parallel_size == 1, we simply set num_gpus=1.
+    resources_kwarg["num_gpus"] = 1
+else:
+    # Otherwise, we have to set num_gpus=0 and provide
+    # a function that will create a placement group for
+    # each instance.
+    resources_kwarg["num_gpus"] = 0
+    resources_kwarg["ray_remote_args_fn"] = scheduling_strategy_fn
+
+# Apply batch inference for all input data.
+ds = ds.map_batches(
+    LLMPredictor,
+    # Set the concurrency to the number of LLM instances.
+    concurrency=num_instances,
+    # Specify the batch size for inference.
+    batch_size=32,
+    **resources_kwarg,
+)
+
+# Peek first 10 results.
+# NOTE: This is for local testing and debugging. For production use case,
+# one should write full result out as shown below.
+outputs = ds.take(limit=10)
+for output in outputs:
+    prompt = output["prompt"]
+    generated_text = output["generated_text"]
+    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
+
+# Write inference output data out as Parquet files to S3.
+# Multiple files would be written to the output destination,
+# and each task would write one or more files separately.
+#
+# ds.write_parquet("s3://<your-output-bucket>")
\ No newline at end of file

From d67d7b0a856cfe4e24ac2fc3aa4eb31ab55eed66 Mon Sep 17 00:00:00 2001
From: duanjunwen <935724073@qq.com>
Date: Thu, 15 May 2025 17:32:51 +0800
Subject: [PATCH 03/24] [feat] enlarge seqlen

---
 .../ColossalChat/.nfs00000000078104b100001d70 | 389 ------------------
 .../coati/distributed/consumer.py             |  19 +-
 .../coati/distributed/grpo_consumer.py        |   5 +-
 .../coati/distributed/inference_backend.py    |   5 +-
 .../ColossalChat/coati/distributed/launch.py  |   4 +-
 .../coati/distributed/producer.py             |   3 +-
 .../ColossalChat/coati/distributed/utils.py   |  20 +-
 applications/ColossalChat/fusion_result.json  |   1 -
 .../kernel_meta/buildPidInfo.json             |  68 ++-
 applications/ColossalChat/rl_example.py       |  11 +-
 .../ColossalChat/tests/test_ray_vllm.py       |  96 +++++
 11 files changed, 208 insertions(+), 413 deletions(-)
 delete mode 100755 applications/ColossalChat/.nfs00000000078104b100001d70
 delete mode 100644 applications/ColossalChat/fusion_result.json
 create mode 100644 applications/ColossalChat/tests/test_ray_vllm.py

diff --git a/applications/ColossalChat/.nfs00000000078104b100001d70 b/applications/ColossalChat/.nfs00000000078104b100001d70
deleted file mode 100755
index 5db53e4f6063..000000000000
--- a/applications/ColossalChat/.nfs00000000078104b100001d70
+++ /dev/null
@@ -1,389 +0,0 @@
-2025-05-06 22:50:50,843	WARNING collective.py:22 -- NCCL seems unavailable. Please install Cupy following the guide at: https://docs.cupy.dev/en/stable/install.html.
-/home/duanjunwen/ColossalAI/colossalai/utils/safetensors.py:13: UserWarning: Please install the latest tensornvme to use async save. pip install git+https://github.com/hpcaitech/TensorNVMe.git
-  warnings.warn(
-/usr/local/python3.10/lib/python3.10/site-packages/bitsandbytes/cextension.py:34: UserWarning: The installed version of bitsandbytes was compiled without GPU support. 8-bit optimizers, 8-bit multiplication, and GPU quantization are unavailable.
-  warn("The installed version of bitsandbytes was compiled without GPU support. "
-/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/normalization.py:48: UserWarning: Please install apex from source (https://github.com/NVIDIA/apex) to use the fused RMSNorm kernel
-  warnings.warn("Please install apex from source (https://github.com/NVIDIA/apex) to use the fused RMSNorm kernel")
-'NoneType' object has no attribute 'cadam32bit_grad_fp32'
-2025-05-06 22:51:04,272	INFO worker.py:1654 -- Connecting to existing Ray cluster at address: 10.0.0.3:6379...
-2025-05-06 22:51:04,285	INFO worker.py:1841 -- Connected to Ray cluster.
-[36m(pid=259440)[0m NCCL seems unavailable. Please install Cupy following the guide at: https://docs.cupy.dev/en/stable/install.html.
-[36m(pid=132985, ip=10.0.0.4)[0m /home/duanjunwen/ColossalAI/colossalai/utils/safetensors.py:13: UserWarning: Please install the latest tensornvme to use async save. pip install git+https://github.com/hpcaitech/TensorNVMe.git
-[36m(pid=132985, ip=10.0.0.4)[0m   warnings.warn(
-[36m(pid=259440)[0m /usr/local/python3.10/lib/python3.10/site-packages/bitsandbytes/cextension.py:34: UserWarning: The installed version of bitsandbytes was compiled without GPU support. 8-bit optimizers, 8-bit multiplication, and GPU quantization are unavailable.
-[36m(pid=259440)[0m   warn("The installed version of bitsandbytes was compiled without GPU support. "
-[36m(pid=132987, ip=10.0.0.4)[0m /home/duanjunwen/ColossalAI/colossalai/shardformer/layer/normalization.py:48: UserWarning: Please install apex from source (https://github.com/NVIDIA/apex) to use the fused RMSNorm kernel
-[36m(pid=132987, ip=10.0.0.4)[0m   warnings.warn("Please install apex from source (https://github.com/NVIDIA/apex) to use the fused RMSNorm kernel")
-[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]
-[36m(pid=132983, ip=10.0.0.4)[0m NCCL seems unavailable. Please install Cupy following the guide at: https://docs.cupy.dev/en/stable/install.html.[32m [repeated 15x across cluster][0m
-[36m(pid=259435)[0m /home/duanjunwen/ColossalAI/colossalai/utils/safetensors.py:13: UserWarning: Please install the latest tensornvme to use async save. pip install git+https://github.com/hpcaitech/TensorNVMe.git[32m [repeated 15x across cluster][0m
-[36m(pid=259435)[0m   warnings.warn([32m [repeated 15x across cluster][0m
-[36m(pid=259445)[0m /usr/local/python3.10/lib/python3.10/site-packages/bitsandbytes/cextension.py:34: UserWarning: The installed version of bitsandbytes was compiled without GPU support. 8-bit optimizers, 8-bit multiplication, and GPU quantization are unavailable.[32m [repeated 15x across cluster][0m
-[36m(pid=259445)[0m   warn("The installed version of bitsandbytes was compiled without GPU support. "[32m [repeated 15x across cluster][0m
-[36m(pid=259435)[0m /home/duanjunwen/ColossalAI/colossalai/shardformer/layer/normalization.py:48: UserWarning: Please install apex from source (https://github.com/NVIDIA/apex) to use the fused RMSNorm kernel[32m [repeated 15x across cluster][0m
-[36m(pid=259435)[0m   warnings.warn("Please install apex from source (https://github.com/NVIDIA/apex) to use the fused RMSNorm kernel")[32m [repeated 15x across cluster][0m
-[36m(SimpleProducer pid=259434)[0m /usr/local/python3.10/lib/python3.10/site-packages/torch_npu/contrib/transfer_to_npu.py:292: ImportWarning: 
-[36m(SimpleProducer pid=259434)[0m     *************************************************************************************************************
-[36m(SimpleProducer pid=259434)[0m     The torch.Tensor.cuda and torch.nn.Module.cuda are replaced with torch.Tensor.npu and torch.nn.Module.npu now..
-[36m(SimpleProducer pid=259434)[0m     The torch.cuda.DoubleTensor is replaced with torch.npu.FloatTensor cause the double type is not supported now..
-[36m(SimpleProducer pid=259434)[0m     The backend in torch.distributed.init_process_group set to hccl now..
-[36m(SimpleProducer pid=259434)[0m     The torch.cuda.* and torch.cuda.amp.* are replaced with torch.npu.* and torch.npu.amp.* now..
-[36m(SimpleProducer pid=259434)[0m     The device parameters have been replaced with npu in the function below:
-[36m(SimpleProducer pid=259434)[0m     torch.logspace, torch.randint, torch.hann_window, torch.rand, torch.full_like, torch.ones_like, torch.rand_like, torch.randperm, torch.arange, torch.frombuffer, torch.normal, torch._empty_per_channel_affine_quantized, torch.empty_strided, torch.empty_like, torch.scalar_tensor, torch.tril_indices, torch.bartlett_window, torch.ones, torch.sparse_coo_tensor, torch.randn, torch.kaiser_window, torch.tensor, torch.triu_indices, torch.as_tensor, torch.zeros, torch.randint_like, torch.full, torch.eye, torch._sparse_csr_tensor_unsafe, torch.empty, torch._sparse_coo_tensor_unsafe, torch.blackman_window, torch.zeros_like, torch.range, torch.sparse_csr_tensor, torch.randn_like, torch.from_file, torch._cudnn_init_dropout_state, torch._empty_affine_quantized, torch.linspace, torch.hamming_window, torch.empty_quantized, torch._pin_memory, torch.autocast, torch.load, torch.Generator, torch.set_default_device, torch.Tensor.new_empty, torch.Tensor.new_empty_strided, torch.Tensor.new_full, torch.Tensor.new_ones, torch.Tensor.new_tensor, torch.Tensor.new_zeros, torch.Tensor.to, torch.Tensor.pin_memory, torch.nn.Module.to, torch.nn.Module.to_empty
-[36m(SimpleProducer pid=259434)[0m     *************************************************************************************************************
-[36m(SimpleProducer pid=259434)[0m     
-[36m(SimpleProducer pid=259434)[0m   warnings.warn(msg, ImportWarning)
-[36m(SimpleProducer pid=259434)[0m /usr/local/python3.10/lib/python3.10/site-packages/torch_npu/contrib/transfer_to_npu.py:247: RuntimeWarning: torch.jit.script and torch.jit.script_method will be disabled by transfer_to_npu, which currently does not support them, if you need to enable them, please do not use transfer_to_npu.
-[36m(SimpleProducer pid=259434)[0m   warnings.warn(msg, RuntimeWarning)
-[36m(SimpleProducer pid=259443)[0m     
-[36m(SimpleProducer pid=259437)[0m     
-[36m(SimpleProducer pid=259449)[0m     
-[36m(SimpleProducer pid=259445)[0m     
-[36m(SimpleProducer pid=259440)[0m     
-[36m(SimpleProducer pid=259435)[0m     
-[36m(SimpleProducer pid=259436)[0m     
-[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m Loading checkpoint shards:  25%|██▌       | 1/4 [00:06<00:20,  6.80s/it]
-[36m(GRPOConsumer pid=132985, ip=10.0.0.4)[0m Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s][32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259436)[0m /usr/local/python3.10/lib/python3.10/site-packages/torch_npu/contrib/transfer_to_npu.py:292: ImportWarning: [32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259436)[0m     *************************************************************************************************************[32m [repeated 14x across cluster][0m
-[36m(SimpleProducer pid=259436)[0m     The torch.Tensor.cuda and torch.nn.Module.cuda are replaced with torch.Tensor.npu and torch.nn.Module.npu now..[32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259436)[0m     The torch.cuda.DoubleTensor is replaced with torch.npu.FloatTensor cause the double type is not supported now..[32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259436)[0m     The backend in torch.distributed.init_process_group set to hccl now..[32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259436)[0m     The torch.cuda.* and torch.cuda.amp.* are replaced with torch.npu.* and torch.npu.amp.* now..[32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259436)[0m     The device parameters have been replaced with npu in the function below:[32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259436)[0m     torch.logspace, torch.randint, torch.hann_window, torch.rand, torch.full_like, torch.ones_like, torch.rand_like, torch.randperm, torch.arange, torch.frombuffer, torch.normal, torch._empty_per_channel_affine_quantized, torch.empty_strided, torch.empty_like, torch.scalar_tensor, torch.tril_indices, torch.bartlett_window, torch.ones, torch.sparse_coo_tensor, torch.randn, torch.kaiser_window, torch.tensor, torch.triu_indices, torch.as_tensor, torch.zeros, torch.randint_like, torch.full, torch.eye, torch._sparse_csr_tensor_unsafe, torch.empty, torch._sparse_coo_tensor_unsafe, torch.blackman_window, torch.zeros_like, torch.range, torch.sparse_csr_tensor, torch.randn_like, torch.from_file, torch._cudnn_init_dropout_state, torch._empty_affine_quantized, torch.linspace, torch.hamming_window, torch.empty_quantized, torch._pin_memory, torch.autocast, torch.load, torch.Generator, torch.set_default_device, torch.Tensor.new_empty, torch.Tensor.new_empty_strided, torch.Tensor.new_full, torch.Tensor.new_ones, torch.Tensor.new_tensor, torch.Tensor.new_zeros, torch.Tensor.to, torch.Tensor.pin_memory, torch.nn.Module.to, torch.nn.Module.to_empty[32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259436)[0m   warnings.warn(msg, ImportWarning)[32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259436)[0m /usr/local/python3.10/lib/python3.10/site-packages/torch_npu/contrib/transfer_to_npu.py:247: RuntimeWarning: torch.jit.script and torch.jit.script_method will be disabled by transfer_to_npu, which currently does not support them, if you need to enable them, please do not use transfer_to_npu.[32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259436)[0m   warnings.warn(msg, RuntimeWarning)[32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259443)[0m [W506 22:51:37.130852786 compiler_depend.ts:848] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
-[36m(SimpleProducer pid=259443)[0m [rank0]:[W506 22:51:37.133613460 compiler_depend.ts:848] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
-[36m(SimpleProducer pid=259443)[0m [rank0]:[W506 22:51:37.159879408 compiler_depend.ts:848] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
-[36m(SimpleProducer pid=259443)[0m [rank0]:[W506 22:51:37.166827262 compiler_depend.ts:848] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
-[36m(SimpleProducer pid=259443)[0m Loading safetensors checkpoint shards:   0% Completed | 0/4 [00:00<?, ?it/s]
-[36m(GRPOConsumer pid=132984, ip=10.0.0.4)[0m Loading checkpoint shards:  25%|██▌       | 1/4 [00:07<00:23,  7.91s/it][32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259437)[0m Loading safetensors checkpoint shards:  25% Completed | 1/4 [00:04<00:12,  4.10s/it]
-[36m(SimpleProducer pid=259436)[0m [rank0]:[W506 22:51:42.331997621 compiler_depend.ts:848] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)[32m [repeated 28x across cluster][0m
-[36m(SimpleProducer pid=259436)[0m Loading safetensors checkpoint shards:   0% Completed | 0/4 [00:00<?, ?it/s][32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259437)[0m Loading safetensors checkpoint shards:  50% Completed | 2/4 [00:06<00:06,  3.05s/it]
-[36m(GRPOConsumer pid=132987, ip=10.0.0.4)[0m Loading checkpoint shards:  50%|█████     | 2/4 [00:15<00:16,  8.01s/it][32m [repeated 8x across cluster][0m
-[36m(SimpleProducer pid=259445)[0m Loading safetensors checkpoint shards:  25% Completed | 1/4 [00:09<00:28,  9.59s/it][32m [repeated 4x across cluster][0m
-[36m(SimpleProducer pid=259437)[0m 
-[36m(GRPOConsumer pid=132983, ip=10.0.0.4)[0m Loading checkpoint shards:  75%|███████▌  | 3/4 [00:21<00:07,  7.00s/it][32m [repeated 2x across cluster][0m
-[36m(SimpleProducer pid=259435)[0m Loading safetensors checkpoint shards:  50% Completed | 2/4 [00:11<00:11,  5.55s/it][32m [repeated 9x across cluster][0m
-[36m(SimpleProducer pid=259449)[0m 
-[36m(GRPOConsumer pid=132987, ip=10.0.0.4)[0m Loading checkpoint shards:  75%|███████▌  | 3/4 [00:23<00:07,  7.89s/it][32m [repeated 6x across cluster][0m
-[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m Loading checkpoint shards: 100%|██████████| 4/4 [00:28<00:00,  7.13s/it]Loading checkpoint shards: 100%|██████████| 4/4 [00:28<00:00,  7.10s/it]
-[36m(SimpleProducer pid=259435)[0m Loading safetensors checkpoint shards:  75% Completed | 3/4 [00:16<00:05,  5.33s/it][32m [repeated 7x across cluster][0m
-[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]
-[36m(SimpleProducer pid=259440)[0m 
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259435)[0m 
-[36m(GRPOConsumer pid=132987, ip=10.0.0.4)[0m Loading checkpoint shards: 100%|██████████| 4/4 [00:31<00:00,  7.69s/it]Loading checkpoint shards: 100%|██████████| 4/4 [00:31<00:00,  7.78s/it][32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259443)[0m Loading safetensors checkpoint shards:  50% Completed | 2/4 [00:26<00:26, 13.07s/it][32m [repeated 9x across cluster][0m
-[36m(GRPOConsumer pid=132987, ip=10.0.0.4)[0m Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s][32m [repeated 7x across cluster][0m
-[36m(GRPOConsumer pid=132983, ip=10.0.0.4)[0m Loading checkpoint shards:  25%|██▌       | 1/4 [00:06<00:20,  6.93s/it]
-[36m(SimpleProducer pid=259445)[0m Loading safetensors checkpoint shards:  75% Completed | 3/4 [00:26<00:08,  8.82s/it]
-[36m(SimpleProducer pid=259436)[0m Loading safetensors checkpoint shards:  75% Completed | 3/4 [00:28<00:09,  9.45s/it]
-[36m(SimpleProducer pid=259445)[0m 
-[36m(GRPOConsumer pid=132987, ip=10.0.0.4)[0m Loading checkpoint shards:  25%|██▌       | 1/4 [00:07<00:23,  7.81s/it][32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259445)[0m Loading safetensors checkpoint shards: 100% Completed | 4/4 [00:33<00:00,  8.28s/it][32m [repeated 2x across cluster][0m
-[36m(GRPOConsumer pid=132982, ip=10.0.0.4)[0m Loading checkpoint shards:  50%|█████     | 2/4 [00:15<00:15,  7.51s/it][32m [repeated 6x across cluster][0m
-[36m(SimpleProducer pid=259436)[0m 
-[36m(SimpleProducer pid=259436)[0m Loading safetensors checkpoint shards: 100% Completed | 4/4 [00:37<00:00,  9.39s/it][32m [repeated 3x across cluster][0m
-[36m(GRPOConsumer pid=132986, ip=10.0.0.4)[0m Loading checkpoint shards:  75%|███████▌  | 3/4 [00:22<00:07,  7.47s/it][32m [repeated 5x across cluster][0m
-[36m(GRPOConsumer pid=132983, ip=10.0.0.4)[0m Loading checkpoint shards: 100%|██████████| 4/4 [00:27<00:00,  6.88s/it]Loading checkpoint shards: 100%|██████████| 4/4 [00:27<00:00,  6.89s/it]
-[36m(GRPOConsumer pid=132987, ip=10.0.0.4)[0m Loading checkpoint shards:  75%|███████▌  | 3/4 [00:23<00:07,  7.94s/it][32m [repeated 5x across cluster][0m
-[36m(GRPOConsumer pid=132983, ip=10.0.0.4)[0m [W506 22:52:29.496557944 compiler_depend.ts:848] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
-[36m(GRPOConsumer pid=132983, ip=10.0.0.4)[0m [rank3]:[W506 22:52:29.612466819 compiler_depend.ts:848] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
-[36m(GRPOConsumer pid=132983, ip=10.0.0.4)[0m [rank3]:[W506 22:52:29.613732489 compiler_depend.ts:848] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
-[36m(GRPOConsumer pid=132983, ip=10.0.0.4)[0m [rank3]:[W506 22:52:29.615149419 compiler_depend.ts:848] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
-[36m(GRPOConsumer pid=132983, ip=10.0.0.4)[0m [rank3]:[W506 22:52:29.616241789 compiler_depend.ts:848] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)
-[36m(GRPOConsumer pid=132986, ip=10.0.0.4)[0m wandb: Using wandb-core as the SDK backend.  Please refer to https://wandb.me/wandb-core for more information.
-[36m(GRPOConsumer pid=132985, ip=10.0.0.4)[0m Loading checkpoint shards: 100%|██████████| 4/4 [00:29<00:00,  7.53s/it]Loading checkpoint shards: 100%|██████████| 4/4 [00:29<00:00,  7.49s/it][32m [repeated 4x across cluster][0m
-[36m(GRPOConsumer pid=132986, ip=10.0.0.4)[0m wandb: Currently logged in as: 935724073 (935724073-university-of-new-south-wales) to https://api.wandb.ai. Use `wandb login --relogin` to force relogin
-[36m(GRPOConsumer pid=132986, ip=10.0.0.4)[0m wandb: WARNING Path ./wandb/wandb/ wasn't writable, using system temp directory.
-[36m(GRPOConsumer pid=132986, ip=10.0.0.4)[0m wandb: creating run
-[36m(SimpleProducer pid=259443)[0m Loading safetensors checkpoint shards: 100% Completed | 4/4 [00:54<00:00, 13.97s/it]
-[36m(SimpleProducer pid=259443)[0m Loading safetensors checkpoint shards: 100% Completed | 4/4 [00:54<00:00, 13.69s/it]
-[36m(SimpleProducer pid=259443)[0m 
-[36m(GRPOConsumer pid=132986, ip=10.0.0.4)[0m wandb: Tracking run with wandb version 0.19.8
-[36m(GRPOConsumer pid=132986, ip=10.0.0.4)[0m wandb: Run data is saved locally in /tmp/wandb/run-20250506_225231-t3q14dzy
-[36m(GRPOConsumer pid=132986, ip=10.0.0.4)[0m wandb: Run `wandb offline` to turn off syncing.
-[36m(GRPOConsumer pid=132986, ip=10.0.0.4)[0m wandb: Syncing run vllm_bs_32_temp_1.0_top_p_1.00
-[36m(GRPOConsumer pid=132986, ip=10.0.0.4)[0m wandb: ⭐️ View project at https://wandb.ai/935724073-university-of-new-south-wales/GRPO-Train-Align-Debug
-[36m(GRPOConsumer pid=132986, ip=10.0.0.4)[0m wandb: 🚀 View run at https://wandb.ai/935724073-university-of-new-south-wales/GRPO-Train-Align-Debug/runs/t3q14dzy
-[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m Episode 0:   0%|          | 0/117 [00:00<?, ?it/s]
-[36m(GRPOConsumer pid=132987, ip=10.0.0.4)[0m [rank4]:[W506 22:52:34.326771112 compiler_depend.ts:848] Warning: The HCCL execution timeout 7200000ms is bigger than watchdog timeout 1800000ms which is set by init_process_group! The plog may not be recorded. (function ProcessGroupHCCL)[32m [repeated 35x across cluster][0m
-[36m(GRPOConsumer pid=132985, ip=10.0.0.4)[0m wandb: Using wandb-core as the SDK backend.  Please refer to https://wandb.me/wandb-core for more information.
-[36m(GRPOConsumer pid=132987, ip=10.0.0.4)[0m Loading checkpoint shards: 100%|██████████| 4/4 [00:31<00:00,  7.72s/it]Loading checkpoint shards: 100%|██████████| 4/4 [00:31<00:00,  7.80s/it][32m [repeated 3x across cluster][0m
-[36m(GRPOConsumer pid=132985, ip=10.0.0.4)[0m wandb: Currently logged in as: 935724073 (935724073-university-of-new-south-wales) to https://api.wandb.ai. Use `wandb login --relogin` to force relogin
-[36m(GRPOConsumer pid=132985, ip=10.0.0.4)[0m wandb: WARNING Path ./wandb/wandb/ wasn't writable, using system temp directory.
-[36m(GRPOConsumer pid=132985, ip=10.0.0.4)[0m wandb: Tracking run with wandb version 0.19.8
-[36m(GRPOConsumer pid=132985, ip=10.0.0.4)[0m wandb: Run data is saved locally in /tmp/wandb/run-20250506_225233-5oz1tbc3
-[36m(GRPOConsumer pid=132985, ip=10.0.0.4)[0m wandb: Run `wandb offline` to turn off syncing.
-[36m(GRPOConsumer pid=132985, ip=10.0.0.4)[0m wandb: Syncing run vllm_bs_32_temp_1.0_top_p_1.00
-[36m(GRPOConsumer pid=132985, ip=10.0.0.4)[0m wandb: ⭐️ View project at https://wandb.ai/935724073-university-of-new-south-wales/GRPO-Train-Align-Debug
-[36m(GRPOConsumer pid=132985, ip=10.0.0.4)[0m wandb: 🚀 View run at https://wandb.ai/935724073-university-of-new-south-wales/GRPO-Train-Align-Debug/runs/5oz1tbc3
-[36m(SimpleProducer pid=259437)[0m /usr/local/python3.10/lib/python3.10/site-packages/torch/utils/_contextlib.py:116: DeprecationWarning: The keyword arguments {'prompt_token_ids'} are deprecated and will be removed in a future update. Please use the 'prompts' parameter instead.
-[36m(SimpleProducer pid=259437)[0m   return func(*args, **kwargs)
-[36m(GRPOConsumer pid=132987, ip=10.0.0.4)[0m Successful rendezvous!
-[36m(SimpleProducer pid=259445)[0m /usr/local/python3.10/lib/python3.10/site-packages/torch/utils/_contextlib.py:116: DeprecationWarning: The keyword arguments {'prompt_token_ids'} are deprecated and will be removed in a future update. Please use the 'prompts' parameter instead.[32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259445)[0m   return func(*args, **kwargs)[32m [repeated 7x across cluster][0m
-[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m Successful rendezvous![32m [repeated 56x across cluster][0m
-[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m Episode 0:   0%|          | 0/117 [05:08<?, ?it/s, Step=1, Status=Collecting: 256/256]
-[36m(GRPOConsumer pid=132988, ip=10.0.0.4)[0m Successful rendezvous![32m [repeated 7x across cluster][0m
-[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m The attention layers in this model are transitioning from computing the RoPE embeddings internally through `position_ids` (2D tensor with the indexes of the tokens), to using externally computed `position_embeddings` (Tuple of tensors, containing cos and sin). In v4.46 `position_ids` will be removed and `position_embeddings` will be mandatory.
-inference_batch_size 8 num_producers 8 train_batch_size 16 train_dp_size 2
-[36m(pid=259440)[0m 'NoneType' object has no attribute 'cadam32bit_grad_fp32'
-[36m(SimpleProducer pid=259434)[0m INFO 05-06 22:51:19 __init__.py:30] Available plugins for group vllm.platform_plugins:
-[36m(SimpleProducer pid=259434)[0m INFO 05-06 22:51:19 __init__.py:32] name=ascend, value=vllm_ascend:register
-[36m(SimpleProducer pid=259434)[0m INFO 05-06 22:51:19 __init__.py:34] all available plugins for group vllm.platform_plugins will be loaded.
-[36m(SimpleProducer pid=259434)[0m INFO 05-06 22:51:19 __init__.py:36] set environment variable VLLM_PLUGINS to control which plugins to load.
-[36m(SimpleProducer pid=259434)[0m INFO 05-06 22:51:19 __init__.py:44] plugin ascend loaded.
-[36m(SimpleProducer pid=259434)[0m INFO 05-06 22:51:19 __init__.py:198] Platform plugin ascend is activated
-[36m(SimpleProducer pid=259434)[0m INFO 05-06 22:51:19 __init__.py:30] Available plugins for group vllm.general_plugins:
-[36m(SimpleProducer pid=259434)[0m INFO 05-06 22:51:19 __init__.py:32] name=ascend_enhanced_model, value=vllm_ascend:register_model
-[36m(SimpleProducer pid=259434)[0m INFO 05-06 22:51:19 __init__.py:34] all available plugins for group vllm.general_plugins will be loaded.
-[36m(SimpleProducer pid=259434)[0m INFO 05-06 22:51:19 __init__.py:36] set environment variable VLLM_PLUGINS to control which plugins to load.
-[36m(SimpleProducer pid=259434)[0m INFO 05-06 22:51:19 __init__.py:44] plugin ascend_enhanced_model loaded.
-[36m(SimpleProducer pid=259434)[0m WARNING 05-06 22:51:19 _custom_ops.py:21] Failed to import from vllm._C with ModuleNotFoundError("No module named 'vllm._C'")
-[36m(pid=259445)[0m 'NoneType' object has no attribute 'cadam32bit_grad_fp32'[32m [repeated 15x across cluster] (Ray deduplicates logs by default. Set RAY_DEDUP_LOGS=0 to disable log deduplication, or see https://docs.ray.io/en/master/ray-observability/user-guides/configure-logging.html#log-deduplication for more options.)[0m
-[36m(SimpleProducer pid=259434)[0m INFO 05-06 22:51:20 importing.py:16] Triton not installed or not compatible; certain GPU-related functions will not be available.
-[36m(SimpleProducer pid=259434)[0m WARNING 05-06 22:51:20 registry.py:351] Model architecture Qwen2VLForConditionalGeneration is already registered, and will be overwritten by the new model class vllm_ascend.models.qwen2_vl:CustomQwen2VLForConditionalGeneration.
-[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m Using GRPO config: {'lr': 1e-06, 'train_microbatch_size': 8, 'beta': 0.01, 'loss_variation': 'sample_level', 'reward_fn_type': 'boxed'}
-[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:51:19 __init__.py:30] Available plugins for group vllm.platform_plugins:[32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:51:19 __init__.py:32] name=ascend, value=vllm_ascend:register[32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:51:19 __init__.py:34] all available plugins for group vllm.platform_plugins will be loaded.[32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:51:19 __init__.py:36] set environment variable VLLM_PLUGINS to control which plugins to load.[32m [repeated 14x across cluster][0m
-[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:51:19 __init__.py:44] plugin ascend loaded.[32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:51:19 __init__.py:198] Platform plugin ascend is activated[32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:51:19 __init__.py:30] Available plugins for group vllm.general_plugins:[32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:51:19 __init__.py:32] name=ascend_enhanced_model, value=vllm_ascend:register_model[32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:51:19 __init__.py:34] all available plugins for group vllm.general_plugins will be loaded.[32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:51:19 __init__.py:44] plugin ascend_enhanced_model loaded.[32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259436)[0m WARNING 05-06 22:51:19 _custom_ops.py:21] Failed to import from vllm._C with ModuleNotFoundError("No module named 'vllm._C'")[32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:51:20 importing.py:16] Triton not installed or not compatible; certain GPU-related functions will not be available.[32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259436)[0m WARNING 05-06 22:51:21 registry.py:351] Model architecture Qwen2VLForConditionalGeneration is already registered, and will be overwritten by the new model class vllm_ascend.models.qwen2_vl:CustomQwen2VLForConditionalGeneration.[32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259434)[0m INFO 05-06 22:51:31 config.py:549] This model supports multiple tasks: {'score', 'generate', 'embed', 'classify', 'reward'}. Defaulting to 'generate'.
-[36m(SimpleProducer pid=259434)[0m INFO 05-06 22:51:31 config.py:1555] Chunked prefill is enabled with max_num_batched_tokens=2048.
-[36m(SimpleProducer pid=259434)[0m INFO 05-06 22:51:31 llm_engine.py:234] Initializing a V0 LLM engine (v0.7.3) with config: model='/home/duanjunwen/models/Qwen/Qwen2.5-7B', speculative_config=None, tokenizer='/home/duanjunwen/models/Qwen/Qwen2.5-7B', skip_tokenizer_init=False, tokenizer_mode=auto, revision=None, override_neuron_config=None, tokenizer_revision=None, trust_remote_code=True, dtype=torch.bfloat16, max_seq_len=4096, download_dir=None, load_format=auto, tensor_parallel_size=1, pipeline_parallel_size=1, disable_custom_all_reduce=False, quantization=None, enforce_eager=True, kv_cache_dtype=auto,  device_config=npu, decoding_config=DecodingConfig(guided_decoding_backend='xgrammar'), observability_config=ObservabilityConfig(otlp_traces_endpoint=None, collect_model_forward_time=False, collect_model_execute_time=False), seed=0, served_model_name=/home/duanjunwen/models/Qwen/Qwen2.5-7B, num_scheduler_steps=1, multi_step_stream_outputs=True, enable_prefix_caching=False, chunked_prefill_enabled=True, use_async_output_proc=True, disable_mm_preprocessor_cache=False, mm_processor_kwargs=None, pooler_config=None, compilation_config={"splitting_ops":[],"compile_sizes":[],"cudagraph_capture_sizes":[],"max_capture_size":0}, use_cached_outputs=False, 
-[36m(SimpleProducer pid=259443)[0m INFO 05-06 22:51:31 config.py:549] This model supports multiple tasks: {'generate', 'score', 'reward', 'classify', 'embed'}. Defaulting to 'generate'.
-[36m(SimpleProducer pid=259437)[0m INFO 05-06 22:51:31 config.py:549] This model supports multiple tasks: {'classify', 'generate', 'reward', 'score', 'embed'}. Defaulting to 'generate'.
-[36m(SimpleProducer pid=259449)[0m INFO 05-06 22:51:31 config.py:549] This model supports multiple tasks: {'score', 'reward', 'generate', 'classify', 'embed'}. Defaulting to 'generate'.
-[36m(SimpleProducer pid=259445)[0m INFO 05-06 22:51:31 config.py:549] This model supports multiple tasks: {'reward', 'generate', 'score', 'classify', 'embed'}. Defaulting to 'generate'.
-[36m(SimpleProducer pid=259434)[0m WARNING 05-06 22:51:32 utils.py:2262] Methods add_lora,add_prompt_adapter,cache_config,compilation_config,current_platform,list_loras,list_prompt_adapters,load_config,pin_lora,pin_prompt_adapter,remove_lora,remove_prompt_adapter not implemented in <vllm_ascend.worker.worker.NPUWorker object at 0xffcfdc819480>
-[36m(SimpleProducer pid=259440)[0m INFO 05-06 22:51:32 config.py:549] This model supports multiple tasks: {'embed', 'classify', 'reward', 'score', 'generate'}. Defaulting to 'generate'.
-[36m(SimpleProducer pid=259435)[0m INFO 05-06 22:51:32 config.py:549] This model supports multiple tasks: {'embed', 'score', 'reward', 'classify', 'generate'}. Defaulting to 'generate'.
-[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:51:32 config.py:549] This model supports multiple tasks: {'classify', 'generate', 'score', 'reward', 'embed'}. Defaulting to 'generate'.
-[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m [extension] Loading the JIT-built cpu_adam_arm kernel during runtime now
-[36m(GRPOConsumer pid=132985, ip=10.0.0.4)[0m Using GRPO config: {'lr': 1e-06, 'train_microbatch_size': 8, 'beta': 0.01, 'loss_variation': 'sample_level', 'reward_fn_type': 'boxed'}[32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:51:32 config.py:1555] Chunked prefill is enabled with max_num_batched_tokens=2048.[32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:51:32 llm_engine.py:234] Initializing a V0 LLM engine (v0.7.3) with config: model='/home/duanjunwen/models/Qwen/Qwen2.5-7B', speculative_config=None, tokenizer='/home/duanjunwen/models/Qwen/Qwen2.5-7B', skip_tokenizer_init=False, tokenizer_mode=auto, revision=None, override_neuron_config=None, tokenizer_revision=None, trust_remote_code=True, dtype=torch.bfloat16, max_seq_len=4096, download_dir=None, load_format=auto, tensor_parallel_size=1, pipeline_parallel_size=1, disable_custom_all_reduce=False, quantization=None, enforce_eager=True, kv_cache_dtype=auto,  device_config=npu, decoding_config=DecodingConfig(guided_decoding_backend='xgrammar'), observability_config=ObservabilityConfig(otlp_traces_endpoint=None, collect_model_forward_time=False, collect_model_execute_time=False), seed=0, served_model_name=/home/duanjunwen/models/Qwen/Qwen2.5-7B, num_scheduler_steps=1, multi_step_stream_outputs=True, enable_prefix_caching=False, chunked_prefill_enabled=True, use_async_output_proc=True, disable_mm_preprocessor_cache=False, mm_processor_kwargs=None, pooler_config=None, compilation_config={"splitting_ops":[],"compile_sizes":[],"cudagraph_capture_sizes":[],"max_capture_size":0}, use_cached_outputs=False, [32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259436)[0m WARNING 05-06 22:51:33 utils.py:2262] Methods add_lora,add_prompt_adapter,cache_config,compilation_config,current_platform,list_loras,list_prompt_adapters,load_config,pin_lora,pin_prompt_adapter,remove_lora,remove_prompt_adapter not implemented in <vllm_ascend.worker.worker.NPUWorker object at 0xffcff6cd3640>[32m [repeated 7x across cluster][0m
-[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m [extension] Time taken to load cpu_adam_arm op: 0.1460132598876953 seconds
-[36m(SimpleProducer pid=259437)[0m INFO 05-06 22:52:06 executor_base.py:111] # npu blocks: 3809, # CPU blocks: 585
-[36m(SimpleProducer pid=259437)[0m INFO 05-06 22:52:06 executor_base.py:116] Maximum concurrency for 4096 tokens per request: 119.03x
-[36m(GRPOConsumer pid=132987, ip=10.0.0.4)[0m [extension] Loading the JIT-built cpu_adam_arm kernel during runtime now[32m [repeated 7x across cluster][0m
-[36m(GRPOConsumer pid=132987, ip=10.0.0.4)[0m [extension] Time taken to load cpu_adam_arm op: 0.16289782524108887 seconds[32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259437)[0m INFO 05-06 22:52:08 llm_engine.py:436] init engine (profile, create kv cache, warmup model) took 16.79 seconds
-[36m(SimpleProducer pid=259449)[0m INFO 05-06 22:52:12 executor_base.py:111] # npu blocks: 3809, # CPU blocks: 585
-[36m(SimpleProducer pid=259449)[0m INFO 05-06 22:52:12 executor_base.py:116] Maximum concurrency for 4096 tokens per request: 119.03x
-[36m(SimpleProducer pid=259449)[0m INFO 05-06 22:52:14 llm_engine.py:436] init engine (profile, create kv cache, warmup model) took 15.55 seconds
-[36m(SimpleProducer pid=259440)[0m INFO 05-06 22:52:17 executor_base.py:111] # npu blocks: 3809, # CPU blocks: 585
-[36m(SimpleProducer pid=259440)[0m INFO 05-06 22:52:17 executor_base.py:116] Maximum concurrency for 4096 tokens per request: 119.03x
-[36m(SimpleProducer pid=259440)[0m INFO 05-06 22:52:18 llm_engine.py:436] init engine (profile, create kv cache, warmup model) took 16.44 seconds
-[36m(SimpleProducer pid=259435)[0m INFO 05-06 22:52:20 executor_base.py:111] # npu blocks: 3810, # CPU blocks: 585[32m [repeated 2x across cluster][0m
-[36m(SimpleProducer pid=259435)[0m INFO 05-06 22:52:20 executor_base.py:116] Maximum concurrency for 4096 tokens per request: 119.06x[32m [repeated 2x across cluster][0m
-[36m(SimpleProducer pid=259435)[0m INFO 05-06 22:52:22 llm_engine.py:436] init engine (profile, create kv cache, warmup model) took 18.77 seconds[32m [repeated 2x across cluster][0m
-[36m(SimpleProducer pid=259445)[0m INFO 05-06 22:52:27 executor_base.py:111] # npu blocks: 3810, # CPU blocks: 585
-[36m(SimpleProducer pid=259445)[0m INFO 05-06 22:52:27 executor_base.py:116] Maximum concurrency for 4096 tokens per request: 119.06x
-[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m [05/06/25 22:52:34] INFO     colossalai - colossalai - INFO:                                 
-[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m                              /home/duanjunwen/ColossalAI/colossalai/initialize.py:75 launch  
-[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m                     INFO     colossalai - colossalai - INFO: Distributed environment is      
-[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m                              initialized, world size: 8                                      
-[36m(SimpleProducer pid=259445)[0m INFO 05-06 22:52:29 llm_engine.py:436] init engine (profile, create kv cache, warmup model) took 16.97 seconds
-[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:52:36 executor_base.py:111] # npu blocks: 3810, # CPU blocks: 585
-[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:52:36 executor_base.py:116] Maximum concurrency for 4096 tokens per request: 119.06x
-[36m(SimpleProducer pid=259436)[0m INFO 05-06 22:52:38 llm_engine.py:436] init engine (profile, create kv cache, warmup model) took 17.26 seconds
-[36m(SimpleProducer pid=259443)[0m INFO 05-06 22:52:49 executor_base.py:111] # npu blocks: 3810, # CPU blocks: 585
-[36m(SimpleProducer pid=259443)[0m INFO 05-06 22:52:49 executor_base.py:116] Maximum concurrency for 4096 tokens per request: 119.06x
-[36m(SimpleProducer pid=259443)[0m INFO 05-06 22:52:51 llm_engine.py:436] init engine (profile, create kv cache, warmup model) took 17.65 seconds
-[36m(SimpleProducer pid=259435)[0m [P0] num_valid_microbatches 468, nmb: 4, dl: 468
-[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m Consumer0 num_update: 117, num_recv: 4, nmb: 1
-[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m [T0] Recv data episode 0 step 0 from 0
-[36m(SimpleProducer pid=259436)[0m [P6] Send data [('input_ids', torch.Size([2, 8, 2654])), ('attention_mask', torch.Size([2, 8, 2654])), ('action_log_probs', torch.Size([2, 8, 2142])), ('action_mask', torch.Size([2, 8, 2142])), ('response_idx', torch.Size([2, 8, 2])), ('gt_answer', torch.Size([2, 8, 128]))]
-[36m(SimpleProducer pid=259445)[0m [P7] num_valid_microbatches 468, nmb: 4, dl: 468[32m [repeated 7x across cluster][0m
-[36m(GRPOConsumer pid=132988, ip=10.0.0.4)[0m Consumer7 num_update: 117, num_recv: 4, nmb: 1[32m [repeated 7x across cluster][0m
-[36m(GRPOConsumer pid=132988, ip=10.0.0.4)[0m [T7] Recv data episode 0 step 0 from 0[32m [repeated 7x across cluster][0m
-[36m(SimpleProducer pid=259440)[0m [P5] Send data [('input_ids', torch.Size([2, 8, 3944])), ('attention_mask', torch.Size([2, 8, 3944])), ('action_log_probs', torch.Size([2, 8, 3432])), ('action_mask', torch.Size([2, 8, 3432])), ('response_idx', torch.Size([2, 8, 2])), ('gt_answer', torch.Size([2, 8, 128]))]
-[36m(SimpleProducer pid=259449)[0m [P2] Send data [('input_ids', torch.Size([2, 8, 4096])), ('attention_mask', torch.Size([2, 8, 4096])), ('action_log_probs', torch.Size([2, 8, 3584])), ('action_mask', torch.Size([2, 8, 3584])), ('response_idx', torch.Size([2, 8, 2])), ('gt_answer', torch.Size([2, 8, 128]))]
-[36m(SimpleProducer pid=259435)[0m [P0] Send data [('input_ids', torch.Size([2, 8, 4096])), ('attention_mask', torch.Size([2, 8, 4096])), ('action_log_probs', torch.Size([2, 8, 3584])), ('action_mask', torch.Size([2, 8, 3584])), ('response_idx', torch.Size([2, 8, 2])), ('gt_answer', torch.Size([2, 8, 128]))][32m [repeated 4x across cluster][0m
-[36m(SimpleProducer pid=259434)[0m Rollout example:
-[36m(SimpleProducer pid=259434)[0m  system
-[36m(SimpleProducer pid=259434)[0m Please reason step by step, and put your final answer within \boxed{}.
-[36m(SimpleProducer pid=259434)[0m user
-[36m(SimpleProducer pid=259434)[0m Regular hexagon $ABCDEF$ is divided into six smaller equilateral triangles, such as $\triangle ABG$, shown in boldface in the diagram.  By connecting every other vertex, we obtain a larger equilateral triangle $\triangle ACE$, also shown in boldface.  Compute the ratio $[\triangle ABG]/[\triangle ACE]$. [asy]
-[36m(SimpleProducer pid=259434)[0m size(150); defaultpen(linewidth(0.8)); dotfactor=5;
-[36m(SimpleProducer pid=259434)[0m pair[] hex = new pair[6];
-[36m(SimpleProducer pid=259434)[0m string[] hexlabels = {"$C$","$B$","$A$","$F$","$E$","$D$"};
-[36m(SimpleProducer pid=259434)[0m hexlabels.cyclic=true;
-[36m(SimpleProducer pid=259434)[0m hex[0] = dir(0);
-[36m(SimpleProducer pid=259434)[0m for(int i = 1; i <= 6; ++i){
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m hex[i] = dir(60*i);
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m draw(hex[i] -- hex[i-1]);
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m dot(hexlabels[i],hex[i],hex[i]);
-[36m(SimpleProducer pid=259434)[0m }
-[36m(SimpleProducer pid=259434)[0m draw(hex[0]--hex[3]); draw(hex[1]--hex[4]); draw(hex[2]--hex[5]);
-[36m(SimpleProducer pid=259434)[0m draw(hex[0]--hex[2]--hex[4]--cycle,linewidth(1.3));
-[36m(SimpleProducer pid=259434)[0m draw(hex[1]--hex[2]--(0,0)--cycle,linewidth(1.3));
-[36m(SimpleProducer pid=259434)[0m dot("$G$",(0,0),2*S);
-[36m(SimpleProducer pid=259434)[0m [/asy] Let's think step by step and output the final answer within \boxed{}.
-[36m(SimpleProducer pid=259434)[0m assistant
-[36m(SimpleProducer pid=259434)[0m To compute the ratio $[\triangle ABG]/[\triangle ACE]$, we can use the formula for the area of an equilateral triangle. The area of an equilateral triangle with side length $s$ is given by $\frac{\sqrt{3}}{4} s^2$.
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m In triangle $ ACE$, the side length is $s_1$, and in triangle $ ABG$, the side length is $s_2$. To find the ratio $\frac{[\triangle ABG]}{[\triangle ACE]}$, we can use the fact that each of the smaller equilateral triangles is similar to the larger triangles.
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m Using this similarity relationship, we can express the side lengths of the triangle in terms of the length of the side of the regular hexagon, $s$. Since $AC$ is a diagonal of the hexagon, it is equal to $2s$. Therefore, we have $s_1 = 2s$. Similarly, $BG$ is half the length of $AC$, so $s_2 = \frac{1}{2}s_1 = s$.
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m Now we can calculate the areas of the triangles using the formula for the area of an equilateral triangle. We have:
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m $[\triangle ABG] = \frac{\sqrt{3}}{4} s_2^2 = \frac{\sqrt{3}}{4} s^2$
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m $[\triangle ACE] = \frac{\sqrt{3}}{4} s_1^2 = \frac{\sqrt{3}}{4} (2s)^2 = 4 \frac{\sqrt{3}}{4} s^2 = \sqrt{3} s^2$
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m Thus, the ratio is:
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m $\frac{[\triangle ABG]}{[\triangle ACE]} = \frac{\frac{\sqrt{3}}{4} s^2}{\sqrt{3} s^2} = \frac{1}{4}$
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m So the answer is $\boxed{1/4}$.
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m jifss - Factoring Example Number 1 (#17)Sheila uses rewrite congruence notation to write.info@... er Exponential notation for. tables and graphs. These notation, number, and algebra to represent information. ppt Download 7-May-2018 positano.it supportive media and humanist a are. . . . transforms to 1000000 people a year.We've made a. moving up to new social and physical challenges.Now the human. world numerical notation for. But the majority of numerals look. It our socio-cultural environment using Supernormality Theory. in essence. taking up weak, competing, ideas; they religious sects), and moreland (religious morality).taking. the Project Team include Ian Goldin. and Mike Hammond.adoption of more rational. . sum of themFind out what. time, location visiting as the day of ReFESA. Numerical notation for. CFCSC Technology Standards Explained. What are they up to?? . rounded to two decimal places, in vertrite.2 ., 34 Numerical notation for. 25 100 306.14. 8.32. 2.725 158.89. Practice Grid Version. 6.taking these developments a step further.And a recent study in a major. economic journal. . but we need to explain what exactly has changed. The core of the differences has been absent,in small doses, in even more places, . . of the U.S.professor with documentation. . . at least that it. counting without notation. for. . Allies’ Strategy PubUniver. Why? advantages. University. of. London. time. RajeshR., KenHyett and Laura. . million deaths in French- . religion." Choose correctly. [ além. pronominal] .CONQUIS. abor setting up for sub-contract, sub- and. become. Numerical notation for. 2 t Separate 4-m systems?. Mental division n. of decimal points, if necessary.The woman has exchanged a. and Certificates of 1. Our own internal. "This ability for a fast moving physical object to. numerical notation for. Original WOFR information. then doing so on. Words using at least one digital. and signals digital signals neer 1.0. . Very soon, they will learn other forms of numerical notation for. A third problem is particularly.More information . NBP09019 - AS Lighthouse Pilot 10 shipping at home. Another example could strive. The Muslim world possibly solu-. . situated. within. . 10: (12.3482 × 2^. muito bem para fazer algo; is a market. . SYD 01:30 attendance women. Learning the types of inactive buscarGood book. PRP 2010 de purchase. Mathematical
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m jifss - Factoring Example Number 1 (#17)Sheila uses rewrite congruence notation to write.info@... er Exponential notation for. tables and graphs. These notation, number, and algebra to represent information. ppt Download 7-May-2018 positano.it supportive media and humanist a are. . . . transforms to 1000000 people a year.We've made a. moving up to new social and physical challenges.Now the human. world numerical notation for. But the majority of numerals look. It our socio-cultural environment using Supernormality Theory. in essence. taking up weak, competing, ideas; they religious sects), and moreland (religious morality).taking. the Project Team include Ian Goldin. and Mike Hammond.adoption of more rational. . sum of themFind out what. time, location visiting as the day of ReFESA. Numerical notation for. CFCSC Technology Standards Explained. What are they up to?? . rounded to two decimal places, in vertrite.2 ., 34 Numerical notation for. 25 100 306.14. 8.32. 2.725 158.89. Practice Grid Version. 6.taking these developments a step further.And a recent study in a major. economic journal. . but we need to explain what exactly has changed. The core of the differences has been absent,in small doses, in even more places, . . on an international learning and distance course Series.line are initially incomplete.Achre kingdoms. providers. . not just prestige. . Our societyeven. . uses this. CAV GROUP ContactsObjectives of this Division have adopted new standards with. the top-down manner -- using. . essay on the scientific and. so achieving longer deserve 100ams in New York City.is far more important' ' . saying' ' . Video Games: Affect can become. Numerical notation for. Calculating costs. THE OR邓小, thanks ... who established city-states. in Italy viz . Notice the pattern:1, 4, 16, 64, 256, . . . Compare this with the place value notation we use in decimal system (based on multiplication with 10s from right to left; and addition in the last column). In binary system, multiplication is with 2s. So, there is a place value notation for binary numbers as well. have few practical uses, and knowledge of binary notation and. standards . The basic number system. The intuitive system of numeration used by . Numerical notation for. procedures for add, subtract, multiply, and divide numbers. needed . . Indeed, teaching of mathematics by Tamil came at the expense of making. . Both use a formal grammar to derive their programs '. ‘0/3’ £lion. . and. . Numerical notation for. while Brunet (2009) identifies a high market demand and use. Proprietary and Quantitative Regulation for, Dominance . if bourgeoise of UniversAlm mathematics. if I is a. 3.x 2² '). If for numbers are encoded. meter close to dollars.. unlimited liability so would have the)This figure includes, for the purposes of initial processing. Numerical notation for. American. For forged documents. Search examples.http://bmpdb.com/22-Misc.html cộng đồngSinhala (12345) is used for numerals (and ' 100 w public ', . establishing a workshop for digitization. . to two devices and use to multiply. file name '03Media_characters.zip'. . and . involving the study of Narcissism or Morality on a global level, ._RANGE._, means '. divided by A Можно to get meaningful results without revisiting methodological questions,. . the next mathematical realization. to 100000 personal finance articles. . to do aoi courtesies, there by. . Supernormality . some never made a spare. number of Maajnini. TERMS.Square[ FL 80. left to half of our 5' playquery ' '. The ideas. . list. of age for their Mental calculations actizing. PR = widthanth GGNnnbr hand racers,. German A EUL . coleg Www.bestpracticeseducatedUSA.eqales IU 70-80. 7 using binary arithmetic. In加拿大经验 that is. CAN operate assembler based MCUs' ' . getting the. concept. On a framework to provide a window . . Numerical notation for. e cite text[ ABP] COL 449 PHY 140R ORTH. Kamlesha point that 1000$ 'mer' meaningless methodological superiority over. " In technology. receive level must first computing converts. quit working, it was named . INTERNATIONAL. COMMUNICATION UNITED KINGDOM. for array, vector, and matrix elements. Plus. . United States anddiary system Insimon . also writes 100 years of history as extraordinary. tended. . corners to find groups of hash marks. . desperation .Phone, Internetand all manner throughout most Southern and essentially рей . searches, is. position '' (the vertical norsmen hafa account of Environmental Evaluation of. Graphed. Environment. for Numerical notation for. making adjustments by subtracting one value from the next, . were. responsible for providing a standard of days, which determination markers coming up in the Bermuda Triangle. FOR SCHOLASTIC ANIMATED GRAPHICSTring to asks letters. This is the. . . mathematical learning from step up the International. Mathematics. Curriculum & , spae, /\ refold BIOFIT Connect. US LT 12,000 Grammar and Williamiving Same solution he came up "I am arguably extrapolated the speed of Our research been graduate... ' . . . . . thousand, billion, trillion, etc. 02. . inv see '01Solution x 2 2 '01x 473所述。solution x other. Related . . Numerical notation for. 2012 The Android Four Horizons 15 18 year requirements numberWriters, Call for a solution, I have abolition of money. .. 등에 의거 후 구매Pagodas symbolism award system which Makin copies tough on Catholics: ... it out in future shipments.Will not wait. not (';
-[36m(SimpleProducer pid=259434)[0m jifss - Verical-line notifications and distribution. for. . CERT. CP #5 000 UP & Down FD 50 @ 400KCCERT. Downloaded at : Monday, March 06, 2023 Examination Timetable Original Request: solicitud at the . EmailBAXCO and CSSCO Certificate of Complexity . their support from总理. 'Customer Response Center3 . www.markistan.com Website of the. Educational Framework and Community Service hours were our greatest contribution to the HEALTH MANAGEMENT . . (Subjective. . In three years. might be conceptually strong.They. focused and . . numeral in Mathematics . born every year: 320,000 couples per. Census does not have. Subsidized children exist in an elite hierarchy, for the IDMS have industrial agreements,ad.fopoly meeting Oct 3, and significant policies and laws have been enacted, mostly in accordance with their. teaching course modules for. . p i erosion . (16;48) and. . for. . . becomes. Adding interactive. . . Marshall, of. Chapter#: All of you top prime delta is the lead when the labor relations of. LOS VERS. Marihead hand, who want the. . Who was. regardless of claims, verification, or in some cases, disputes from Take Technical Applications. young people interested. . ) . I, finally, spent 300 staff head core refracting light under his unit . . . Certificate to' ' . 670 Trading Standard. ANALYSIS provided for Mountains2 with . ' . Numerical notation for. Numbered Surgery_ . Food and Drug Administration (FDA), or. how to play in ATC thinking routinesMaster page ... for money. . . updated. tJ.|t ' . . dependent. . people as working and student residents. The interpersonal skills necessary for leading numeracy. ' .Fibus are all in the spring of same month professiona1 books and . This is the general. content Knowledge measurement feasible. CDC was established. by Congress or the ratio is . conch on in channel. direction. . moderately. elastic Council for Labor Commission technical and operational. . Meaning that words should not be separated by spaces.is characterized. You open . . to help fill the junior. placement service section how to open a file in excel No . inter-school programs a doctoral. humans. is. beginning of daily. Kurdish Women's High School goat dy_backup_updater d g 1 upbase . Basis Registers.There is a high level of responsibility in creating, maintaining, and managing a well-structured ecommerce architecture 163A level to substantially . insecure environment is uniquely crashing the browser, followed. system) and never received pay checks. . regarding videogames in . Numerical notation for. undergraduate course in mathematics. of the textbooks. . . In geographic terms . Arial" " No" " No_hi! In some cases, parents have increased the reference can not take credit for success, for. Benefits Return to . Our class hundred systems Below is a short . Pyinvoke (PIC 2:R/W CLR_FUTURE) . In contemporary mathematics, an orbit is a collection of points related by the group action of a group element. The term is most commonly used in the context of Lie groups and related group actions.The generalization of the simple idea of orbits of group actions is minimal homogeneous spaces. File- . ' . That's sad, ' he said like the activist exceptionally skilled. Board and place holders. . writing sample. and program specifically. . is explained recently. mathematics students. . as part of the. 24 hour, seven-andover. an important cultural role representations in mathematics:	this. Office of eNew under Lien/. belief of Vernon and keys in multiplication. and reduce. 08, 119 . Back to Understand Observer.Dataeye . for Suicide prevention.numer stayed quietly trou y out... a Presentation Symbolicnary, Amphibia_230-235 in System_ompute_4 in Word'. Ensure bog State equal nne 4000. Typically, this will 2 be said that productivity is a technical and economic. computer science.. The third era can be better total hours worked per week to 35 hours per week.long help us to to be grabbed by.Temporary Characteristics The current. Numerical notation for. different than the symbols in security; 2.0187 Numeric Key A Espresso HiPro Authentication/ "
-[36m(SimpleProducer pid=259434)[0m jifss - Tatiana likes to command all numbers to whisper. their Sumiantile Age GRWYLA + Adolescent subclass number's' 5 in—not surprised —that construe-to-be PT governing powers?Generation of Biorefineries(USDOE-AL ) N numbers 3 to reconstruct .. axes. to Point" by.100$, $300 oro miercion?c. 02ti $q, o zn . Numerical notation for. that these solutions are related. by philosophy. . programme and rated documents. Physics 15. Rice 12.2 Reformulate Theorem around. . . A) 0.118m B) 0.228m C) 01.29m D)2.09 Em the Ideal Smithsonian about under . ." by values inspired by my antiques objecteralscoped fire, add 100. have even look on!垠 Ented enemies You might infer B friends brokeCommon ; color all . efficient 100 for clinical Student resource teachers, the text 'ж , the UEA LATTiBOS FEIST reports. . drivens.com plan. with the computer science There rating W Normals! . metal and stain. Sure, without scumbledore for processThe forDonaldTrump In a
-[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m [T0] Recv data episode 0 step 0 from 1
-[36m(SimpleProducer pid=259434)[0m [P1] Send data [('input_ids', torch.Size([2, 8, 4096])), ('attention_mask', torch.Size([2, 8, 4096])), ('action_log_probs', torch.Size([2, 8, 3584])), ('action_mask', torch.Size([2, 8, 3584])), ('response_idx', torch.Size([2, 8, 2])), ('gt_answer', torch.Size([2, 8, 128]))]
-[36m(SimpleProducer pid=259434)[0m Rollout example:
-[36m(SimpleProducer pid=259434)[0m  system
-[36m(SimpleProducer pid=259434)[0m Please reason step by step, and put your final answer within \boxed{}.
-[36m(SimpleProducer pid=259434)[0m user
-[36m(SimpleProducer pid=259434)[0m If $f(x) = -7x^4 + 3x^3 + x - 5$, and $g(x)$ is a polynomial such that the degree of $f(x) + g(x)$ is 1, then what is the degree of $g(x)$? Let's think step by step and output the final answer within \boxed{}.
-[36m(SimpleProducer pid=259434)[0m assistant
-[36m(SimpleProducer pid=259434)[0m To determine the degree of $g(x)$, we first need to understand what we mean by the degree of a polynomial. The degree of a polynomial is the highest power of $x$ that has a non-zero coefficient. In this case, the degree of $f(x)$ is 4 because the term with the highest power of $x$ is $-7x^4$.
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m We are given that the degree of $f(x) + g(x)$ is 1. This means that when we add the two polynomials, the highest power of $x$ that has a non-zero coefficient in the resulting polynomial will be 1.
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m Since the degree of $f(x)$ is 4 and we want the degree of $f(x) + g(x)$ to be 1, we need to manipulate $g(x)$ so that when we add it to $f(x)$, the terms with powers greater than 1 cancel out. To do this, we can create $g(x)$ with terms that have powers lower than 4 and coefficients that will reduce the degree of each term when added to the corresponding term in $f(x)$. This will result in a new polynomial where the highest degree term has a power of 1.
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m To accomplish this, we need $g(x)$ to have terms with powers from 0 to 3. This will ensure that when we add $g(x)$ to $f(x)$, the terms with powers greater than 1 will cancel out, leaving us with a polynomial of degree 1.
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m Therefore, the degree of $g(x)$ should be 3.
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m cómo insertar (con el botón pinchinflejar) una imagen muestrairecibo.JPG en este documento, sin相处ovel er a bitmap o jpeg
-[36m(SimpleProducer pid=259434)[0m To insert an image titled "muestrairecibo.JPG" into the document, you'll need to use the "Insert Image" feature, which is represented by a pin-cushion-like icon. Here are the steps to insert an image:
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m 1. Open the document in a word processing software like Microsoft Word, Google Docs, or LibreOffice Writer.
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m 2. Make sure the insertion point is where you want to insert the image.
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m 3. Locate the "Insert Image" or equivalent tool. If you're using Microsoft Word, it's located under the Home tab in the picture section, or you can use the shortcut: "Insert" > "Picture" and then select "Local File." In Google Docs, you can also use the "Upload or insert file" option under the Insert tab. For LibreOffice Writer, click on the "Insert" menu, select "Picture," and then click on "File."
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m 4. A dialog box will appear. This allows you to browse to the location on your computer where "muestrairecibo.JPG" is saved.
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m 5. Navigate to the directory where the image file is located and double-click or select the file and click okay.
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m 6. The image of muestrairecibo.JPG should now appear in the document at the selected insertion point.
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m If you're experiencing trouble locating the "Insert Image" feature, consult your operating system/word processing software user manual or contact their customer support for assistance. Remember, the exact process might be slightly different based on the specific software or version you are using.
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m how to add a watermark element below the "image muesbrairecibo" file and that is automatically positioned and shrinks in relation to the image size (to left,right,top,down).
-[36m(SimpleProducer pid=259434)[0m To add a watermark below the image "muestrairecibo.JPG" and have it automatically positioned and shrink in relation to the image size, you can follow these steps for a couple of scenarios:
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m **Word Processing Software (e.g., Microsoft Word or Google Docs)**
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m 1. Insert the image: Insert the "muestrairecibo.JPG" image into your desired location within your document.
-[36m(SimpleProducer pid=259434)[0m    
-[36m(SimpleProducer pid=259434)[0m 2. Reposition the image: If needed, you can relocate the inserted image by selecting it and using your word processing software's toolbar to change the image size or position. 
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m 3. Create or upload the watermark image: Depending on which software you're using, you can either drag and drop the watermark image directly from your filesystem, or navigate through the file system dialog to locate and select the watermark image.
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m    **Google Docs:** Click the "Insert" menu, then select "Image" or "Watermark"
-[36m(SimpleProducer pid=259434)[0m    
-[36m(SimpleProducer pid=259434)[0m    **Microsoft Word:** Click the "Insert" tab, then select "Watermark"
-[36m(SimpleProducer pid=259434)[0m    
-[36m(SimpleProducer pid=259434)[0m 4. Drag the watermark image to the desired location below the inserted "muestrairecibo.JPG" image.
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m 5. Customizing the watermark:
-[36m(SimpleProducer pid=259434)[0m    - If you need more control over the position and size of the watermark in relation to the image, you might have to crop and resize the watermark file manually for each image or automate this process in a custom solution (chosen from steps below).
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m **Automating the Positioning and Shrinkage (Advanced, Using VBA for Microsoft Word or Google Apps Script for Google Docs)**
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m - **Microsoft Word (using VBA):** You might need to code a VBA macro to detect the image size, create a proportionally sized watermark image based on that size, and place the watermark image in the correct location. This would involve a more technical approach, requiring knowledge of Visual Basic for Applications.
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m - **Google Docs (using Google Apps Script):** With Google Apps Script, you can write code to automate the resizing and positioning of the watermark based on the size of the document's images. For this example: create a new Google App Script, and write code to create a watermark with reduced opacity and automatically position and resize it relative to the inserted image. It would require some programming experience.
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m In general, custom automation solutions (both VBA for Microsoft Word and Google Apps Script for Google Docs) usually involve breaking the tasks down into several steps and writing code to perform each step where you want the automation to occur – often triggered by a specific action, such as 'on open' or 'after insertion' of an image.
-[36m(SimpleProducer pid=259434)[0m 
-[36m(SimpleProducer pid=259434)[0m Remember to properly save your changes after each step and, if needed, test the watermark placement and resizing with different image sizes.
-[36m(SimpleProducer pid=259434)[0m [P1] Send data [('input_ids', torch.Size([2, 8, 2150])), ('attention_mask', torch.Size([2, 8, 2150])), ('action_log_probs', torch.Size([2, 8, 1638])), ('action_mask', torch.Size([2, 8, 1638])), ('response_idx', torch.Size([2, 8, 2])), ('gt_answer', torch.Size([2, 8, 128]))]
-[36m(GRPOConsumer pid=132988, ip=10.0.0.4)[0m [T7] Recv data episode 0 step 0 from 0[32m [repeated 63x across cluster][0m
-[36m(SimpleProducer pid=259436)[0m [P6] Send data [('input_ids', torch.Size([2, 8, 2692])), ('attention_mask', torch.Size([2, 8, 2692])), ('action_log_probs', torch.Size([2, 8, 2180])), ('action_mask', torch.Size([2, 8, 2180])), ('response_idx', torch.Size([2, 8, 2])), ('gt_answer', torch.Size([2, 8, 128]))]
-[36m(SimpleProducer pid=259437)[0m [P3] Send data [('input_ids', torch.Size([2, 8, 3683])), ('attention_mask', torch.Size([2, 8, 3683])), ('action_log_probs', torch.Size([2, 8, 3171])), ('action_mask', torch.Size([2, 8, 3171])), ('response_idx', torch.Size([2, 8, 2])), ('gt_answer', torch.Size([2, 8, 128]))]
-[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m [T0] Recv data episode 0 step 0 from 1
-[36m(GRPOConsumer pid=132981, ip=10.0.0.4)[0m [T0] Recv data episode 0 step 0 from 2
-[36m(SimpleProducer pid=259443)[0m [P4] Send data [('input_ids', torch.Size([2, 8, 3556])), ('attention_mask', torch.Size([2, 8, 3556])), ('action_log_probs', torch.Size([2, 8, 3044])), ('action_mask', torch.Size([2, 8, 3044])), ('response_idx', torch.Size([2, 8, 2])), ('gt_answer', torch.Size([2, 8, 128]))]
-[36m(SimpleProducer pid=259435)[0m [P0] Send data [('input_ids', torch.Size([2, 8, 4096])), ('attention_mask', torch.Size([2, 8, 4096])), ('action_log_probs', torch.Size([2, 8, 3584])), ('action_mask', torch.Size([2, 8, 3584])), ('response_idx', torch.Size([2, 8, 2])), ('gt_answer', torch.Size([2, 8, 128]))]
-[36m(GRPOConsumer pid=132988, ip=10.0.0.4)[0m [T7] Recv data episode 0 step 0 from 2[32m [repeated 14x across cluster][0m
-[36m(SimpleProducer pid=259449)[0m [P2] Send data [('input_ids', torch.Size([2, 8, 4096])), ('attention_mask', torch.Size([2, 8, 4096])), ('action_log_probs', torch.Size([2, 8, 3584])), ('action_mask', torch.Size([2, 8, 3584])), ('response_idx', torch.Size([2, 8, 2])), ('gt_answer', torch.Size([2, 8, 128]))][32m [repeated 2x across cluster][0m
-Traceback (most recent call last):
-  File "/home/duanjunwen/ColossalAI/applications/ColossalChat/rl_example.py", line 202, in <module>
-    launch_distributed(
-  File "/home/duanjunwen/ColossalAI/applications/ColossalChat/coati/distributed/launch.py", line 120, in launch_distributed
-    ray.get([p.loop.remote() for p in procs])
-  File "/usr/local/python3.10/lib/python3.10/site-packages/ray/_private/auto_init_hook.py", line 21, in auto_init_wrapper
-    return fn(*args, **kwargs)
-  File "/usr/local/python3.10/lib/python3.10/site-packages/ray/_private/client_mode_hook.py", line 103, in wrapper
-    return func(*args, **kwargs)
-  File "/usr/local/python3.10/lib/python3.10/site-packages/ray/_private/worker.py", line 2771, in get
-    values, debugger_breakpoint = worker.get_objects(object_refs, timeout=timeout)
-  File "/usr/local/python3.10/lib/python3.10/site-packages/ray/_private/worker.py", line 919, in get_objects
-    raise value.as_instanceof_cause()
-ray.exceptions.RayTaskError(RuntimeError): [36mray::GRPOConsumer.loop()[39m (pid=132985, ip=10.0.0.4, actor_id=c8d5c4ebd0eed225bc8efefb01000000, repr=<coati.distributed.grpo_consumer.GRPOConsumer object at 0xffcfb775c610>)
-  File "/home/duanjunwen/ColossalAI/applications/ColossalChat/coati/distributed/consumer.py", line 141, in loop
-    loss, num_excessive_prompts = self.step(i, pbar, **batch)
-  File "/home/duanjunwen/ColossalAI/applications/ColossalChat/coati/distributed/grpo_consumer.py", line 391, in step
-    policy_model_outputs = self.booster.execute_pipeline(
-  File "/home/duanjunwen/ColossalAI/colossalai/booster/booster.py", line 221, in execute_pipeline
-    return self.plugin.execute_pipeline(data_iter, model, criterion, optimizer, return_loss, return_outputs)
-  File "/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py", line 1409, in execute_pipeline
-    outputs = self.scheduler.forward_backward_step(
-  File "/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py", line 472, in forward_backward_step
-    result = self.run_forward_backward(model, data_iter, criterion, optimizer, return_loss, return_outputs)
-  File "/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py", line 416, in run_forward_backward
-    input_obj_grad = self.backward_step(optimizer, input_obj, output_obj, output_obj_grad)
-  File "/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py", line 305, in backward_step
-    optimizer.backward(output_obj)
-  File "/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py", line 807, in backward
-    super().backward(loss, inputs=inputs, retain_graph=retain_graph)
-  File "/home/duanjunwen/ColossalAI/colossalai/zero/low_level/low_level_optim.py", line 461, in backward
-    loss.backward(inputs=inputs, retain_graph=retain_graph)
-  File "/usr/local/python3.10/lib/python3.10/site-packages/torch/_tensor.py", line 581, in backward
-    torch.autograd.backward(
-  File "/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/__init__.py", line 347, in backward
-    _engine_run_backward(
-  File "/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/graph.py", line 825, in _engine_run_backward
-    return Variable._execution_engine.run_backward(  # Calls into the C++ engine to run the backward pass
-  File "/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py", line 307, in apply
-    return user_fn(self, *args)
-  File "/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py", line 231, in backward
-    softmax_logits_2d[torch.arange(0, softmax_logits_2d.shape[0]), masked_target_1d] -= update
-RuntimeError: NPU out of memory. Tried to allocate 4.67 GiB (NPU 0; 60.96 GiB total capacity; 32.79 GiB already allocated; 32.79 GiB current active; 3.34 GiB free; 52.71 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation.
-[36m(GRPOConsumer pid=132988, ip=10.0.0.4)[0m The attention layers in this model are transitioning from computing the RoPE embeddings internally through `position_ids` (2D tensor with the indexes of the tokens), to using externally computed `position_embeddings` (Tuple of tensors, containing cos and sin). In v4.46 `position_ids` will be removed and `position_embeddings` will be mandatory.[32m [repeated 7x across cluster][0m
-[ERROR] 2025-05-06-22:59:02 (PID:258963, Device:0, RankID:-1) ERR99999 UNKNOWN applicaiton exception
-[36m(GRPOConsumer pid=132988, ip=10.0.0.4)[0m [T7] Recv data episode 0 step 0 from 7[32m [repeated 40x across cluster][0m
-[36m(SimpleProducer pid=259440)[0m [P5] Send data [('input_ids', torch.Size([2, 8, 4096])), ('attention_mask', torch.Size([2, 8, 4096])), ('action_log_probs', torch.Size([2, 8, 3584])), ('action_mask', torch.Size([2, 8, 3584])), ('response_idx', torch.Size([2, 8, 2])), ('gt_answer', torch.Size([2, 8, 128]))]
diff --git a/applications/ColossalChat/coati/distributed/consumer.py b/applications/ColossalChat/coati/distributed/consumer.py
index 453499f03fd5..8365c7c7ea52 100644
--- a/applications/ColossalChat/coati/distributed/consumer.py
+++ b/applications/ColossalChat/coati/distributed/consumer.py
@@ -16,7 +16,8 @@
 from colossalai.utils import get_current_device
 
 from .comm import ray_broadcast_tensor_dict
-from .utils import bind_batch, pad_batch, post_recv, unbind_batch
+# from .utils import bind_batch, pad_batch, post_recv, unbind_batch
+from .utils import bind_batch, post_recv, unbind_batch
 
 first_sleep=True
 class BaseConsumer:
@@ -33,6 +34,7 @@ def __init__(
         batch_size: int,
         model_config: Dict[str, Any],
         plugin_config: Dict[str, Any],
+        generate_config: Dict[str, Any],
         minibatch_size: int = 1,
         save_interval: int = 100,
         save_dir: str = "./model",
@@ -59,6 +61,7 @@ def __init__(
         self.device = 'npu'
         # self.device = torch.device(f"npu:{torch.npu.current_device()}")
         self.lr_scheduler = None
+        self.generate_config = generate_config
 
     def setup(self) -> None:
         print(f"self.rank {self.rank} self.world_size {self.world_size} self.master_addr {self.master_addr} self.master_port {self.master_port}")
@@ -76,10 +79,12 @@ def setup(self) -> None:
         self.booster = Booster(plugin=self.plugin)
         self.dp_rank = dist.get_rank(self.plugin.dp_group)
         self.tp_rank = dist.get_rank(self.plugin.tp_group)
+        self.sp_rank = dist.get_rank(self.plugin.sp_group)
         self.pp_rank = dist.get_rank(self.plugin.pp_group)
 
         self.dp_size = dist.get_world_size(self.plugin.dp_group)
         self.tp_size = dist.get_world_size(self.plugin.tp_group)
+        self.sp_size = dist.get_world_size(self.plugin.sp_group)
         self.pp_size = dist.get_world_size(self.plugin.pp_group)
 
         # Init Hybrid ray process group
@@ -120,7 +125,7 @@ def loop(self) -> None:
                             global first_sleep
                             if first_sleep:
                                 import time
-                                time.sleep(180)
+                                time.sleep(720)
                                 first_sleep=False
                             self.buffer.extend(
                                 unbind_batch(
@@ -133,9 +138,10 @@ def loop(self) -> None:
                             batches = self.buffer[
                                 self.dp_rank * self.minibatch_size : (self.dp_rank + 1) * self.minibatch_size
                             ]
-                            batch = pad_batch(
-                                batches
-                            )  # when `imbs` is smaller than `tMbs`, samples may have differ in size, need to pad before stacking
+                            # batch = pad_batch(
+                            #     batches, 
+                            #     max_length=self.generate_config['max_tokens']
+                            # )  # when `imbs` is smaller than `tMbs`, samples may have differ in size, need to pad before stacking
                             batch = bind_batch(batches)
                             batch = post_recv(batch)
                             loss, num_excessive_prompts = self.step(i, pbar, **batch)
@@ -151,6 +157,7 @@ def loop(self) -> None:
                             i += 1
                     if self.lr_scheduler is not None:
                         self.lr_scheduler.step()
+                    print(f"step {step} save_interval {self.save_interval} self.num_update_per_episode {self.num_update_per_episode}")
                     if (step + 1) % self.save_interval == 0 or (step + 1) == self.num_update_per_episode:
                         if self.rank == 0:
                             print(f"Start saving policy model at step {step + 1}.")
@@ -165,7 +172,7 @@ def loop(self) -> None:
                                 f"[T{dist.get_rank()}] Sync model PP stage {self.pp_rank} episode {episode} step {step}"
                             )
                         else:
-                            print(f"[T{dist.get_rank()}] Sync model episode {episode} step {step}")
+                            print(f"[T{dist.get_rank()}] Sync model episode {episode} step {step}")  
                         torch.cuda.empty_cache()
                         state_dict = self.state_dict()
                         if self.pp_size > 1:
diff --git a/applications/ColossalChat/coati/distributed/grpo_consumer.py b/applications/ColossalChat/coati/distributed/grpo_consumer.py
index 877ff98ec55f..a6db5cbac35a 100644
--- a/applications/ColossalChat/coati/distributed/grpo_consumer.py
+++ b/applications/ColossalChat/coati/distributed/grpo_consumer.py
@@ -158,7 +158,7 @@ def setup(self):
         ):
             # Initialize wandb.
             name = f"{self.generate_config['backend']}_bs_{self.batch_size*self.dp_size}_temp_{self.generate_config['temperature']:.01f}_top_p_{self.generate_config['top_p']:.02f}"
-            self.wandb_run = wandb.init(project=self.project_name, sync_tensorboard=True, dir="./wandb", name=name)
+            self.wandb_run = wandb.init(project=self.project_name, sync_tensorboard=True, dir="./wandb", name=name, settings=wandb.Settings(init_timeout=120))
 
         self.policy_model, self.optimizer, _, _, self.lr_scheduler = self.booster.boost(
             self.policy_model, self.optimizer, lr_scheduler=self.lr_scheduler
@@ -336,6 +336,7 @@ def step(self, step_idx: int, pbar: Any, **kwargs) -> Optional[float]:
                                 num_action,
                                 self.plugin.shard_config,
                             )
+                            del reference_model_logits
                         else:
                             # Dummy reference logprobs for data iterator.
                             reference_action_log_probs = None
@@ -415,6 +416,7 @@ def _criterion(outputs, inputs):
                         num_action,
                         self.plugin.shard_config,
                     )
+                    del policy_model_logits
 
                     if self.policy_loss_fn.beta > 0:
                         with torch.no_grad():
@@ -428,6 +430,7 @@ def _criterion(outputs, inputs):
                             num_action,
                             self.plugin.shard_config,
                         )
+                        del reference_model_logits
                         per_token_kl = (
                             torch.exp(reference_action_log_probs - action_log_probs)
                             - (reference_action_log_probs - action_log_probs)
diff --git a/applications/ColossalChat/coati/distributed/inference_backend.py b/applications/ColossalChat/coati/distributed/inference_backend.py
index 7d32cd52a41e..bd671d1d0775 100644
--- a/applications/ColossalChat/coati/distributed/inference_backend.py
+++ b/applications/ColossalChat/coati/distributed/inference_backend.py
@@ -201,6 +201,7 @@ def __init__(
             raise ImportError("vllm is not installed")
         model_config = update_by_default(model_config, self.DEFAULT_MODEL_CONFIG)
         path = model_config.pop("path")
+        print(f"model_config {model_config}")
         self.llm = LLM(model=path, **model_config)
         generate_config = generate_config.copy()
         generate_config.update(self.FORCE_GENERATE_CONFIG)
@@ -209,6 +210,7 @@ def __init__(
         self.model_config = model_config
         self.tokenizer = tokenizer
         self.num_generations = num_generations
+        self.max_length = generate_config['max_tokens']
 
     @torch.no_grad()
     def generate(self, input_ids: torch.Tensor, attention_mask: torch.Tensor, **kwargs) -> Dict[str, torch.Tensor]:
@@ -236,7 +238,8 @@ def generate(self, input_ids: torch.Tensor, attention_mask: torch.Tensor, **kwar
                 log_probs.append(p)
 
         # pad them
-        max_len = max(out_len)
+        # max_len = max(out_len)
+        max_len = self.generate_config.max_tokens
         action_mask = torch.ones(len(out_tokens), max_len, dtype=attention_mask.dtype)
 
         for i, new_token_ids in enumerate(out_tokens):
diff --git a/applications/ColossalChat/coati/distributed/launch.py b/applications/ColossalChat/coati/distributed/launch.py
index 14b39ab21431..6f3feceec990 100644
--- a/applications/ColossalChat/coati/distributed/launch.py
+++ b/applications/ColossalChat/coati/distributed/launch.py
@@ -154,7 +154,9 @@ def launch_distributed(
         print(f"Schedual Producer P[{i}] which requires {num_proc_per_producer} GPUs on node {producer_ip_address}")
         
         producer = SimpleProducer.options(
-            num_cpus=1,
+            # num_cpus=1,
+            # num_cpus=num_proc_per_producer, 
+            num_gpus=0,
             resources={"NPU":num_proc_per_producer},
             scheduling_strategy=ray.util.scheduling_strategies.NodeAffinitySchedulingStrategy(
                 node_id=node_id,
diff --git a/applications/ColossalChat/coati/distributed/producer.py b/applications/ColossalChat/coati/distributed/producer.py
index f1cc583f6feb..8955bc16c411 100644
--- a/applications/ColossalChat/coati/distributed/producer.py
+++ b/applications/ColossalChat/coati/distributed/producer.py
@@ -80,7 +80,8 @@ def __init__(
         else:
             raise ValueError(f"Unexpected backend {backend}")
 
-        self.consumer_pp_size = consumer_plugin_config["pp_size"]  # consumer pp size
+        # self.consumer_pp_size = consumer_plugin_config["pp_size"]  # consumer pp size
+        self.consumer_pp_size = consumer_plugin_config.get("pp_size", 1)  # consumer pp size
 
     def setup(self) -> None:
         cc.init_collective_group(1 + self.num_consumer_procs, 0, backend='hccl', group_name=f"sync_data_{self.producer_idx}")
diff --git a/applications/ColossalChat/coati/distributed/utils.py b/applications/ColossalChat/coati/distributed/utils.py
index ce4923dc493e..5996dc3c3d5a 100644
--- a/applications/ColossalChat/coati/distributed/utils.py
+++ b/applications/ColossalChat/coati/distributed/utils.py
@@ -2,7 +2,7 @@
 from typing import Any, Dict, List
 
 import torch
-
+import math
 from colossalai.shardformer.layer.loss import dist_log_prob
 
 
@@ -27,12 +27,26 @@ def bind_batch(batches: List[Dict[str, torch.Tensor]]) -> Dict[str, torch.Tensor
     return batch
 
 
-def pad_batch(batches: List[Dict[str, torch.Tensor]], tokenizer: Any = None) -> List[Dict[str, torch.Tensor]]:
+def pad_batch(
+    batches: List[Dict[str, torch.Tensor]], 
+    tokenizer: Any = None,
+    max_length: int = 4096,
+) -> List[Dict[str, torch.Tensor]]:
     max_len = defaultdict(int)
     for sample in batches:
         for k in sample:
             if k in ["input_ids", "attention_mask", "action_log_probs", "action_mask"]:
-                max_len[k] = max(max_len[k], sample[k].size(-1))
+                # max_len[k] = max(max_len[k], sample[k].size(-1))
+                max_len[k] = max_length
+     
+    # # ensure max_len % (tp size * sp size) == 0
+    # lcm_value = math.lcm(tensor_parallel_size, sequence_parallel_size)
+    # for k in max_len:
+    #     if max_len[k] % lcm_value != 0:
+    #         max_len[k] = ((max_len[k] // lcm_value) + 1) * lcm_value
+    
+    # print(f"Padding last dim shape {[(k, v)for k, v in max_len.items()]}")
+    
     for idx, sample in enumerate(batches):
         for k in sample:
             if k in ["input_ids", "attention_mask", "action_log_probs", "action_mask"]:
diff --git a/applications/ColossalChat/fusion_result.json b/applications/ColossalChat/fusion_result.json
deleted file mode 100644
index ec747fa47ddb..000000000000
--- a/applications/ColossalChat/fusion_result.json
+++ /dev/null
@@ -1 +0,0 @@
-null
\ No newline at end of file
diff --git a/applications/ColossalChat/kernel_meta/buildPidInfo.json b/applications/ColossalChat/kernel_meta/buildPidInfo.json
index 804df5b51270..4adab8eb7845 100644
--- a/applications/ColossalChat/kernel_meta/buildPidInfo.json
+++ b/applications/ColossalChat/kernel_meta/buildPidInfo.json
@@ -1,14 +1,70 @@
 [
     [
-        1287410,
-        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_5195361436236851103"
+        890291,
+        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_10550256433038220253"
     ],
     [
-        1287412,
-        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_14660501106417545923"
+        890292,
+        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_14217687493830659902"
     ],
     [
-        1287422,
-        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_10947606003133373928"
+        890293,
+        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_12583741730093999386"
+    ],
+    [
+        890294,
+        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_6349447906799349837"
+    ],
+    [
+        890295,
+        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_6581241772764107640"
+    ],
+    [
+        890296,
+        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_8575004515317057657"
+    ],
+    [
+        890297,
+        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_16702774881302336131"
+    ],
+    [
+        890298,
+        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_9031684386049853258"
+    ],
+    [
+        1277838,
+        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_2349599533103174899"
+    ],
+    [
+        1278302,
+        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_8367441553075251736"
+    ],
+    [
+        1278303,
+        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_285106910222209825"
+    ],
+    [
+        1278304,
+        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_5159012320711718570"
+    ],
+    [
+        1278307,
+        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_2653847016791308456"
+    ],
+    [
+        1278308,
+        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_10077999189183044108"
+    ],
+    [
+        1278312,
+        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_16702954684918337335"
+    ],
+    [
+        1278313,
+        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_12723783114417736343"
+    ],
+    [
+        1278317,
+        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_5618349017642250160"
     ]
 ]
\ No newline at end of file
diff --git a/applications/ColossalChat/rl_example.py b/applications/ColossalChat/rl_example.py
index fe1663500faf..114b22e94380 100644
--- a/applications/ColossalChat/rl_example.py
+++ b/applications/ColossalChat/rl_example.py
@@ -96,7 +96,7 @@
     )
 
     # Logging/Checkpointing parameters
-    parser.add_argument("-si", "--save-interval", type=int, default=100, help="Interval for saving checkpoints.")
+    parser.add_argument("-si", "--save-interval", type=int, default=20, help="Interval for saving checkpoints.")
     parser.add_argument("-sd", "--save-dir", type=str, default="./model", help="Directory for saving checkpoints.")
 
     args = parser.parse_args()
@@ -223,13 +223,16 @@
         #     "zero_stage": 2,
         # },  # for zero
         plugin_config={
-            "tp_size": 8,
-            "pp_size": 3,
+            "tp_size": 2,
+            "pp_size": 2,
             "microbatch_size": max(
-                1, args.train_microbatch_size // 3
+                1, args.train_microbatch_size // 2
             ),  # microbatch size should be set to train_microbatch_size // pp_size
             "zero_stage": 1,
             "max_norm": 1.0,
+            # "sp_size": 4,
+            # "enable_sequence_parallelism":True,
+            # "sequence_parallelism_mode":"ring" # ["split_gather", "ring", "all_to_all"]
         },  # for pp, tp
         inference_backend=args.backend,
         master_addr="localhost",
diff --git a/applications/ColossalChat/tests/test_ray_vllm.py b/applications/ColossalChat/tests/test_ray_vllm.py
new file mode 100644
index 000000000000..2deb048254fc
--- /dev/null
+++ b/applications/ColossalChat/tests/test_ray_vllm.py
@@ -0,0 +1,96 @@
+import ray
+import time
+import ray.util.collective as cc
+import torch
+from coati.distributed.comm import ray_broadcast_object, ray_broadcast_tensor_dict
+
+from colossalai.testing import parameterize
+
+from vllm import LLM, SamplingParams
+import torch
+import argparse
+
+parser = argparse.ArgumentParser(description='VLLM args.')
+parser.add_argument("-m", "--model_path", type=str, default="/home/duanjunwen/models/Qwen/Qwen2.5-14B", help="The model path. ")
+parser.add_argument("-l", "--max_length", type=int, default=8192, help="Max sequence length")
+parser.add_argument("-w", "--world_size", type=int, default=1, help="Gpu nums")
+parser.add_argument("-t", "--temperature", type=float, default=0.8, help="Temperature")
+parser.add_argument("--top_p", type=float, default=0.95, help="Top p")
+parser.add_argument("-i", "--input_texts", type=str, default="Find all prime numbers up to 100.", help="Prompts inputs. ")
+args = parser.parse_args()
+
+# Create a sampling params object.
+
+
+@ray.remote(num_cpus=args.world_size, num_gpus=0, resources={"NPU": args.world_size})
+class Worker:
+    def __init__(self, rank, world_size):
+        self.rank = rank
+        self.world_size = world_size
+        self.group_name = "default"
+        cc.init_collective_group(world_size, rank, backend="hccl", group_name=self.group_name)
+        self.llm = LLM(model=args.model_path, max_model_len=args.max_length, tensor_parallel_size=args.world_size)
+        self.sampling_params = SamplingParams(temperature=args.temperature, top_p=args.top_p, max_tokens=args.max_length)
+
+    def run_ray_broadcast_object(self, obj, src, device):
+        # Create an LLM.
+        outputs = self.llm.generate(args.input_texts, self.sampling_params)
+        return outputs
+
+    def run_ray_broadcast_tensor_dict(self, tensor_dict, src, device):
+        # ray_broadcast_tensor_dict
+        received_dict = ray_broadcast_tensor_dict(tensor_dict, src, device, group_name=self.group_name)
+        return received_dict
+
+    def destroy_worker(self):
+        cc.destroy_collective_group(self.group_name)
+
+@parameterize(
+    "test_config",
+    [
+        {
+            "precision": torch.bfloat16,
+            "device": "npu",
+            "num_devices": 8,
+        },
+    ],
+)
+def test_comm(test_config):
+    ray.init(address="local", namespace="ray-example")
+    # ray.init(_node_ip_address="10.0.0.3", namespace="ray-vllm")
+    src = 0
+    device = test_config["device"]
+    # create 4
+    workers = [Worker.remote(i, test_config["num_devices"]) for i in range(test_config["num_devices"])]
+
+    #############
+    # 1. test ray_broadcast_object
+    #############
+    # init broadcast_object data
+    test_obj = {"data": torch.tensor([1, 2, 3]), "message": "hello"}
+
+    # run run_ray_broadcast_object
+    # for i in range(5):
+    # if i > 2:
+    torch.npu.synchronize()
+    start_time = time.time()
+    results = [worker.run_ray_broadcast_object.remote(test_obj, src, device) for worker in workers]
+    
+    # get result
+    results = ray.get(results)
+
+    end_time = time.time()
+    total_time = end_time - start_time
+    
+    print(f"total_time {total_time}")
+
+    for i, result in enumerate(results):
+        print(f"ray_broadcast_object Rank {i} received object: {result}")
+
+    # destory workers
+    for worker in workers:
+        worker.destroy_worker.remote()
+    ray.shutdown()
+
+if __name__ == "__main__":
+    test_comm()

From efcc2e5dd3f7d1d83bb09ae8063933db1dbfcb48 Mon Sep 17 00:00:00 2001
From: duanjunwen <935724073@qq.com>
Date: Thu, 15 May 2025 18:24:01 +0800
Subject: [PATCH 04/24] [fix]

---
 .../coati/distributed/grpo_consumer.py        |   2 +-
 applications/ColossalChat/fusion_result.json  |   1 +
 .../kernel_meta/buildPidInfo.json             |  68 ++------
 colossalai/pipeline/schedule/one_f_one_b.py   |   2 +-
 colossalai/shardformer/layer/loss.py          |   6 +
 colossalai/shardformer/modeling/qwen2.py      | 164 +++++++++++++++++-
 colossalai/shardformer/policies/qwen2.py      |   3 +-
 7 files changed, 183 insertions(+), 63 deletions(-)
 create mode 100644 applications/ColossalChat/fusion_result.json

diff --git a/applications/ColossalChat/coati/distributed/grpo_consumer.py b/applications/ColossalChat/coati/distributed/grpo_consumer.py
index a6db5cbac35a..aaa06d7d9656 100644
--- a/applications/ColossalChat/coati/distributed/grpo_consumer.py
+++ b/applications/ColossalChat/coati/distributed/grpo_consumer.py
@@ -376,7 +376,7 @@ def _criterion(outputs, inputs):
                             kl.append(appox_kl.mean())
                         else:
                             per_token_kl = 0.0
-                            kl.append(0.0)
+                            kl.append(torch.tensor(0.0))
 
                         loss, _ = self.policy_loss_fn(
                             action_log_probs,
diff --git a/applications/ColossalChat/fusion_result.json b/applications/ColossalChat/fusion_result.json
new file mode 100644
index 000000000000..ec747fa47ddb
--- /dev/null
+++ b/applications/ColossalChat/fusion_result.json
@@ -0,0 +1 @@
+null
\ No newline at end of file
diff --git a/applications/ColossalChat/kernel_meta/buildPidInfo.json b/applications/ColossalChat/kernel_meta/buildPidInfo.json
index 4adab8eb7845..1b2dfc488b5f 100644
--- a/applications/ColossalChat/kernel_meta/buildPidInfo.json
+++ b/applications/ColossalChat/kernel_meta/buildPidInfo.json
@@ -1,70 +1,34 @@
 [
     [
-        890291,
-        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_10550256433038220253"
+        1555542,
+        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_16476614907052576919"
     ],
     [
-        890292,
-        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_14217687493830659902"
+        1555545,
+        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_9369356299218011599"
     ],
     [
-        890293,
-        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_12583741730093999386"
+        1555546,
+        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_6682928624472940646"
     ],
     [
-        890294,
-        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_6349447906799349837"
+        1555551,
+        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_16840779732051344906"
     ],
     [
-        890295,
-        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_6581241772764107640"
+        1555553,
+        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_14628001124528746049"
     ],
     [
-        890296,
-        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_8575004515317057657"
+        1555555,
+        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_7228500084756927357"
     ],
     [
-        890297,
-        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_16702774881302336131"
+        1555557,
+        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_17330760278757673894"
     ],
     [
-        890298,
-        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_9031684386049853258"
-    ],
-    [
-        1277838,
-        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_2349599533103174899"
-    ],
-    [
-        1278302,
-        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_8367441553075251736"
-    ],
-    [
-        1278303,
-        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_285106910222209825"
-    ],
-    [
-        1278304,
-        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_5159012320711718570"
-    ],
-    [
-        1278307,
-        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_2653847016791308456"
-    ],
-    [
-        1278308,
-        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_10077999189183044108"
-    ],
-    [
-        1278312,
-        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_16702954684918337335"
-    ],
-    [
-        1278313,
-        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_12723783114417736343"
-    ],
-    [
-        1278317,
-        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_5618349017642250160"
+        1555560,
+        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_7681561664566012981"
     ]
 ]
\ No newline at end of file
diff --git a/colossalai/pipeline/schedule/one_f_one_b.py b/colossalai/pipeline/schedule/one_f_one_b.py
index dcffa858c5c4..a21979d4ef7b 100644
--- a/colossalai/pipeline/schedule/one_f_one_b.py
+++ b/colossalai/pipeline/schedule/one_f_one_b.py
@@ -92,7 +92,7 @@ def load_batch(self, data_iter: Iterable, device: Optional[torch.device] = None)
 
             assert (
                 self.num_microbatches >= self.stage_manager.num_stages
-            ), "Number of microbatch should be larger than number of stages"
+            ), f"Number of microbatch should be larger than number of stages {self.num_microbatches} vs {self.stage_manager.num_stages}"
 
         if self.forward_only:
             self.num_microbatches = (self.batch_size - 1) // self.microbatch_size + 1
diff --git a/colossalai/shardformer/layer/loss.py b/colossalai/shardformer/layer/loss.py
index a9bb76fc7d6b..5da19c4bca5a 100644
--- a/colossalai/shardformer/layer/loss.py
+++ b/colossalai/shardformer/layer/loss.py
@@ -168,6 +168,7 @@ def forward(
         ##################
         logits_max = torch.max(vocab_logits, dim=-1)[0]
         handle = dist.all_reduce(logits_max, op=dist.ReduceOp.MAX, group=process_group, async_op=True)
+        print(f"#########debug loss step1 mem current: {torch.npu.memory_allocated() / (1024**3):.2f} GB, max: {torch.npu.max_memory_allocated() / (1024**3):.2f} GB,")
 
         ##################
         # Step2:Find the local mask. local mask will be use to select log_probs value in Step 4.
@@ -193,6 +194,7 @@ def forward(
         masked_target[mask] = 0
         masked_target_1d = masked_target.view(-1).contiguous()
         handle.wait()
+        print(f"#########debug loss step3 mem current: {torch.npu.memory_allocated() / (1024**3):.2f} GB, max: {torch.npu.max_memory_allocated() / (1024**3):.2f} GB,")
 
         ##################
         # Step3:Calculate global summation exp logits
@@ -205,8 +207,12 @@ def forward(
         ##################
         # Step4:Calculate local prob. We first cal log_softmax, then select log probs via local mask
         ##################
+        print(f"#########debug loss step4 mem current: {torch.npu.memory_allocated() / (1024**3):.2f} GB, max: {torch.npu.max_memory_allocated() / (1024**3):.2f} GB,")
+        torch.npu.empty_cache()
         log_probs = vocab_logits - torch.log(sum_exp_logits.unsqueeze(dim=-1))  # cal log_softmax
+        print(f"#########debug loss step4.1 mem current: {torch.npu.memory_allocated() / (1024**3):.2f} GB, max: {torch.npu.max_memory_allocated() / (1024**3):.2f} GB,")
         log_probs = log_probs.gather(dim=-1, index=masked_target.unsqueeze(-1))
+        print(f"#########debug loss step4.2 mem current: {torch.npu.memory_allocated() / (1024**3):.2f} GB, max: {torch.npu.max_memory_allocated() / (1024**3):.2f} GB,")
         log_probs[mask.unsqueeze(-1)] = 0  # set masked val to zero
         dist.all_reduce(log_probs, op=dist.ReduceOp.SUM, group=process_group)
 
diff --git a/colossalai/shardformer/modeling/qwen2.py b/colossalai/shardformer/modeling/qwen2.py
index 27571309e453..8c5734644155 100644
--- a/colossalai/shardformer/modeling/qwen2.py
+++ b/colossalai/shardformer/modeling/qwen2.py
@@ -2,6 +2,7 @@
 from typing import List, Optional, Tuple, Union
 
 import torch
+import torch_npu
 from torch import nn
 from torch.nn import BCEWithLogitsLoss, CrossEntropyLoss, MSELoss
 from transformers.modeling_outputs import (
@@ -94,6 +95,7 @@ def qwen2_model_forward(
             batch_size, seq_length = input_shape
             device = hidden_states.device
 
+        #print(f"######## debug 0 qwen2 pipe model, ls: {stage_manager.is_last_stage()}, fs: {stage_manager.is_first_stage()}, hidden_states: {hidden_states.shape}")
         seq_length_with_past = seq_length
         past_key_values_length = 0
 
@@ -144,13 +146,14 @@ def qwen2_model_forward(
         if shard_config.enable_flash_attention:
             # in this case, attention_mask is a dict rather than a tensor
             mask_shape = (batch_size, 1, seq_length, seq_length_with_past)
-            attention_mask = ColoAttention.prepare_attn_kwargs(
-                mask_shape,
-                hidden_states.dtype,
-                hidden_states.device,
-                q_padding_mask=attention_mask,
-                is_causal=True,
-            )
+            attention_mask = None
+            #attention_mask = ColoAttention.prepare_attn_kwargs(
+            #    mask_shape,
+            #    hidden_states.dtype,
+            #    hidden_states.device,
+            #    q_padding_mask=attention_mask,
+            #    is_causal=True,
+            #)
         else:
             if self._attn_implementation == "flash_attention_2":
                 # 2d mask is passed through the layers
@@ -174,6 +177,7 @@ def qwen2_model_forward(
                     sliding_window=self.config.sliding_window,
                 )
 
+        #print(f"######## debug 1 qwen2 pipe model, fs: {stage_manager.is_first_stage()}, ls: {stage_manager.is_last_stage()}, hidden_states: {hidden_states.shape}")
         if stage_manager.is_first_stage():
             if shard_config.enable_sequence_parallelism:
                 if is_share_sp_tp(sp_mode):
@@ -189,6 +193,7 @@ def qwen2_model_forward(
                         process_group=sp_group,
                         grad_scale=1 / sp_size,
                     )
+        #print(f"######## debug 2 qwen2 pipe model, ls: {stage_manager.is_last_stage()}, hidden_states: {hidden_states.shape}")
 
         # decoder layers
         all_hidden_states = () if output_hidden_states else None
@@ -197,6 +202,7 @@ def qwen2_model_forward(
 
         start_idx, end_idx = stage_index[0], stage_index[1]
         num_ckpt_layers = 0
+        self.gradient_checkpointing = True
         if self.gradient_checkpointing and self.training:
             num_ckpt_layers = end_idx - start_idx
             # TODO: We can replace `gradient_checkpointing_enable` fn and initialize a gradient_checkpointing (List[bool]) for each layer
@@ -488,6 +494,144 @@ def qwen2_for_sequence_classification_forward(
             return {"hidden_states": hidden_states}
 
 
+def get_qwen2_flash_attention_npu_forward(shard_config: ShardConfig, sp_mode=None, sp_size=None, sp_group=None):
+    def forward(
+        self: Qwen2Attention,
+        hidden_states: torch.Tensor,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_value: Optional[Tuple[torch.Tensor]] = None,
+        output_attentions: bool = False,
+        use_cache: bool = False,
+        **kwargs,
+    ) -> Tuple[torch.Tensor, Optional[torch.Tensor], Optional[Tuple[torch.Tensor]]]:
+        if sp_mode is not None:
+            assert sp_mode in ["all_to_all", "split_gather", "ring"], "Invalid sp_mode"
+            assert (sp_size is not None) and (
+                sp_group is not None
+            ), "Must specify sp_size and sp_group for sequence parallel"
+
+        bsz, q_len, _ = hidden_states.size()
+        #print(f"#############debug 1 bsz: {bsz}, q_len: {q_len}, _: {_}, self.num_heads: {self.num_heads}, self.head_dim: {self.head_dim}")
+        # sp: modify sp_len when sequence parallel mode is ring
+        if sp_mode in ["split_gather", "ring"]:
+            q_len *= sp_size
+
+        query_states = self.q_proj(hidden_states)
+        key_states = self.k_proj(hidden_states)
+        value_states = self.v_proj(hidden_states)
+        #print(f"#############debug query_states: {query_states.shape}, key_states: {key_states.shape}, value_states: {value_states.shape}")
+        # sp: all-to-all comminucation when introducing sequence parallel
+        if sp_mode == "all_to_all":
+            query_states = all_to_all_comm(query_states, sp_group, fp8_communication=shard_config.fp8_communication)
+            key_states = all_to_all_comm(key_states, sp_group, fp8_communication=shard_config.fp8_communication)
+            value_states = all_to_all_comm(value_states, sp_group, fp8_communication=shard_config.fp8_communication)
+            bsz, q_len, _ = query_states.size()
+        print(f"#############debug 2 bsz: {bsz}, q_len: {q_len}, _: {_}, self.num_heads: {self.num_heads}, self.head_dim: {self.head_dim}")
+
+        query_states = query_states.view(bsz, q_len, self.num_heads, -1).transpose(1, 2)
+        key_states = key_states.view(bsz, q_len, self.num_key_value_heads, -1).transpose(1, 2)
+        value_states = value_states.view(bsz, q_len, self.num_key_value_heads, -1).transpose(1, 2)
+
+        kv_seq_len = key_states.shape[-2]
+        if past_key_value is not None:
+            if self.layer_idx is None:
+                raise ValueError(
+                    f"The cache structure has changed since version v4.36. If you are using {self.__class__.__name__} "
+                    "for auto-regressive decoding with k/v caching, please make sure to initialize the attention class "
+                    "with a layer index."
+                )
+            kv_seq_len += past_key_value.get_usable_length(kv_seq_len, self.layer_idx)
+        # Because the input can be padded, the absolute sequence length depends on the max position id.
+        cos, sin = self.rotary_emb(value_states, position_ids)
+        #print(f"#############debug fa cos: {cos.shape}, sin: {sin.shape}, position_ids: {position_ids}, query_states: {query_states.shape}, key_states: {key_states.shape}, value_states: {value_states.shape}")
+        query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin, position_ids)
+
+        if past_key_value is not None:
+            # Activate slicing cache only if the config has a value `sliding_windows` attribute
+            cache_has_contents = past_key_value.get_seq_length(self.layer_idx) > 0
+            if (
+                getattr(self.config, "sliding_window", None) is not None
+                and kv_seq_len > self.config.sliding_window
+                and cache_has_contents
+            ):
+                slicing_tokens = 1 - self.config.sliding_window
+
+                past_key = past_key_value[self.layer_idx][0]
+                past_value = past_key_value[self.layer_idx][1]
+
+                past_key = past_key[:, :, slicing_tokens:, :].contiguous()
+                past_value = past_value[:, :, slicing_tokens:, :].contiguous()
+
+                if past_key.shape[-2] != self.config.sliding_window - 1:
+                    raise ValueError(
+                        f"past key must have a shape of (`batch_size, num_heads, self.config.sliding_window-1, head_dim`), got"
+                        f" {past_key.shape}"
+                    )
+
+                if attention_mask is not None:
+                    attention_mask = attention_mask[:, slicing_tokens:]
+                    attention_mask = torch.cat([attention_mask, torch.ones_like(attention_mask[:, -1:])], dim=-1)
+
+            cache_kwargs = {"sin": sin, "cos": cos}  # Specific to RoPE models
+            key_states, value_states = past_key_value.update(key_states, value_states, self.layer_idx, cache_kwargs)
+
+        # repeat k/v heads if n_kv_heads < n_heads
+        key_states = repeat_kv(key_states, self.num_key_value_groups)
+        value_states = repeat_kv(value_states, self.num_key_value_groups)
+
+        if shard_config.enable_flash_attention:
+            #print(f"#######debug fa q_len: {q_len}, q_len: {q_len}, query_states: {query_states.shape}, key_states: {key_states.shape}")
+            atten_mask = torch.triu(
+                torch.ones(q_len, q_len),
+                diagonal=1,
+            ).to(dtype=torch.bool, device="npu")
+            scale = 1.0 / math.sqrt(query_states.shape[-1])
+            attn_output = torch_npu.npu_fusion_attention(query_states, key_states, value_states, head_num=query_states.size(1), input_layout="BNSD", sparse_mode=1, atten_mask=atten_mask, scale = scale)
+            attn_output = attn_output[0]
+        else:
+            attn_weights = torch.matmul(query_states, key_states.transpose(2, 3)) / math.sqrt(self.head_dim)
+
+            if attn_weights.size() != (bsz, self.num_heads, q_len, kv_seq_len):
+                raise ValueError(
+                    f"Attention weights should be of size {(bsz, self.num_heads, q_len, kv_seq_len)}, but is"
+                    f" {attn_weights.size()}"
+                )
+
+            if attention_mask is not None:
+                if attention_mask.size() != (bsz, 1, q_len, kv_seq_len):
+                    raise ValueError(
+                        f"Attention mask should be of size {(bsz, 1, q_len, kv_seq_len)}, but is {attention_mask.size()}"
+                    )
+                attn_weights = attn_weights + attention_mask
+
+            # upcast attention to fp32
+            attn_weights = nn.functional.softmax(attn_weights, dim=-1, dtype=torch.float32).to(query_states.dtype)
+            attn_output = torch.matmul(attn_weights, value_states)
+
+            if attn_output.size() != (bsz, self.num_heads, q_len, self.head_dim):
+                raise ValueError(
+                    f"`attn_output` should be of size {(bsz, self.num_heads, q_len, self.head_dim)}, but is"
+                    f" {attn_output.size()}"
+                )
+        attn_output = attn_output.transpose(1, 2).contiguous()
+        if sp_mode == "all_to_all":
+            attn_output = attn_output.reshape(bsz, q_len, -1)
+            attn_output = all_to_all_comm(
+                attn_output, sp_group, scatter_dim=1, gather_dim=2, fp8_communication=shard_config.fp8_communication
+            )
+        else:
+            attn_output = attn_output.reshape(bsz, q_len, self.hidden_size)
+
+        attn_output = self.o_proj(attn_output)
+
+        return attn_output, None, past_key_value
+
+    return forward
+
+
+
+
 def get_qwen2_flash_attention_forward(shard_config: ShardConfig, sp_mode=None, sp_size=None, sp_group=None):
     def forward(
         self: Qwen2Attention,
@@ -711,11 +855,15 @@ def forward(
                 hidden_states, 1, sp_group, 1 / sp_size, fp8_communication=shard_config.fp8_communication
             )
 
+        layer_idx = 0
         for decoder_layer in self.layers:
+            print(f"#########debug layer {layer_idx} mem current: {torch.npu.memory_allocated() / (1024**3):.2f} GB, max: {torch.npu.max_memory_allocated() / (1024**3):.2f} GB,")
+            layer_idx += 1
             if output_hidden_states:
                 all_hidden_states += (hidden_states,)
 
             if self.gradient_checkpointing and self.training:
+                print(f"#######debug self.gradient_checkpointing in")
                 layer_outputs = self._gradient_checkpointing_func(
                     decoder_layer.__call__,
                     hidden_states,
@@ -824,7 +972,7 @@ def forward(
             output_attentions=output_attentions,
             output_hidden_states=output_hidden_states,
             return_dict=return_dict,
-            force_sp_output_gather=False,
+            # force_sp_output_gather=False,
         )
 
         hidden_states = outputs[0]
diff --git a/colossalai/shardformer/policies/qwen2.py b/colossalai/shardformer/policies/qwen2.py
index 0adcdfdbd553..add00901d551 100644
--- a/colossalai/shardformer/policies/qwen2.py
+++ b/colossalai/shardformer/policies/qwen2.py
@@ -20,6 +20,7 @@
     Qwen2PipelineForwards,
     get_lm_forward_with_dist_cross_entropy,
     get_qwen2_flash_attention_forward,
+    get_qwen2_flash_attention_npu_forward,
     get_qwen2_model_forward_for_flash_attn,
 )
 
@@ -304,7 +305,7 @@ def module_policy(self) -> Dict[Union[str, nn.Module], ModulePolicyDescription]:
         if self.shard_config.enable_flash_attention or self.shard_config.enable_sequence_parallelism:
             self.append_or_create_method_replacement(
                 description={
-                    "forward": get_qwen2_flash_attention_forward(self.shard_config, sp_mode, sp_size, sp_group),
+                    "forward": get_qwen2_flash_attention_npu_forward(self.shard_config, sp_mode, sp_size, sp_group),
                 },
                 policy=policy,
                 target_key=attn_cls,

From 9ab3cb88565dde6c5fdc8b533a31959f0a8516cf Mon Sep 17 00:00:00 2001
From: duanjunwen <935724073@qq.com>
Date: Fri, 16 May 2025 10:40:14 +0800
Subject: [PATCH 05/24] [fix] ready to updated

---
 .../kernel_meta/buildPidInfo.json             | 34 -------------------
 1 file changed, 34 deletions(-)
 delete mode 100644 applications/ColossalChat/kernel_meta/buildPidInfo.json

diff --git a/applications/ColossalChat/kernel_meta/buildPidInfo.json b/applications/ColossalChat/kernel_meta/buildPidInfo.json
deleted file mode 100644
index 1b2dfc488b5f..000000000000
--- a/applications/ColossalChat/kernel_meta/buildPidInfo.json
+++ /dev/null
@@ -1,34 +0,0 @@
-[
-    [
-        1555542,
-        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_16476614907052576919"
-    ],
-    [
-        1555545,
-        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_9369356299218011599"
-    ],
-    [
-        1555546,
-        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_6682928624472940646"
-    ],
-    [
-        1555551,
-        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_16840779732051344906"
-    ],
-    [
-        1555553,
-        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_14628001124528746049"
-    ],
-    [
-        1555555,
-        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_7228500084756927357"
-    ],
-    [
-        1555557,
-        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_17330760278757673894"
-    ],
-    [
-        1555560,
-        "/home/duanjunwen/ColossalAI/applications/ColossalChat/kernel_meta/kernel_meta_7681561664566012981"
-    ]
-]
\ No newline at end of file

From 687e51371b0a9df9a96d2b4ed559cc737da47da9 Mon Sep 17 00:00:00 2001
From: duanjunwen <935724073@qq.com>
Date: Fri, 16 May 2025 10:51:05 +0800
Subject: [PATCH 06/24] [fix] ready to merge grpo-latest

---
 colossalai/shardformer/layer/loss.py | 14 ++++++++++----
 1 file changed, 10 insertions(+), 4 deletions(-)

diff --git a/colossalai/shardformer/layer/loss.py b/colossalai/shardformer/layer/loss.py
index 5da19c4bca5a..6a540afbc048 100644
--- a/colossalai/shardformer/layer/loss.py
+++ b/colossalai/shardformer/layer/loss.py
@@ -207,12 +207,18 @@ def forward(
         ##################
         # Step4:Calculate local prob. We first cal log_softmax, then select log probs via local mask
         ##################
-        print(f"#########debug loss step4 mem current: {torch.npu.memory_allocated() / (1024**3):.2f} GB, max: {torch.npu.max_memory_allocated() / (1024**3):.2f} GB,")
-        torch.npu.empty_cache()
+        # print(f"#########debug loss step4 mem current: {torch.npu.memory_allocated() / (1024**3):.2f} GB, max: {torch.npu.max_memory_allocated() / (1024**3):.2f} GB,")
+        # torch.npu.synchronize()
+        # torch.npu.empty_cache()
+        #sum_exp_logits = sum_exp_logits.unsqueeze(dim=-1)
+        #print(f"#########debug loss step4.01 mem current: {torch.npu.memory_allocated() / (1024**3):.2f} GB, max: {torch.npu.max_memory_allocated() / (1024**3):.2f} GB,")
+        #log_logits = torch.log(sum_exp_logits)
+        #print(f"#########debug loss step4.02 mem current: {torch.npu.memory_allocated() / (1024**3):.2f} GB, max: {torch.npu.max_memory_allocated() / (1024**3):.2f} GB,")
+        #log_probs = vocab_logits - log_logits 
         log_probs = vocab_logits - torch.log(sum_exp_logits.unsqueeze(dim=-1))  # cal log_softmax
-        print(f"#########debug loss step4.1 mem current: {torch.npu.memory_allocated() / (1024**3):.2f} GB, max: {torch.npu.max_memory_allocated() / (1024**3):.2f} GB,")
+        # print(f"#########debug loss step4.1 mem current: {torch.npu.memory_allocated() / (1024**3):.2f} GB, max: {torch.npu.max_memory_allocated() / (1024**3):.2f} GB,")
         log_probs = log_probs.gather(dim=-1, index=masked_target.unsqueeze(-1))
-        print(f"#########debug loss step4.2 mem current: {torch.npu.memory_allocated() / (1024**3):.2f} GB, max: {torch.npu.max_memory_allocated() / (1024**3):.2f} GB,")
+        # print(f"#########debug loss step4.2 mem current: {torch.npu.memory_allocated() / (1024**3):.2f} GB, max: {torch.npu.max_memory_allocated() / (1024**3):.2f} GB,")
         log_probs[mask.unsqueeze(-1)] = 0  # set masked val to zero
         dist.all_reduce(log_probs, op=dist.ReduceOp.SUM, group=process_group)
 

From 9d43ef718f556ea5a361692cf6ab4d661fd30158 Mon Sep 17 00:00:00 2001
From: duanjunwen <935724073@qq.com>
Date: Fri, 16 May 2025 15:45:08 +0800
Subject: [PATCH 07/24] [fix] rm comments

---
 .../ColossalChat/coati/distributed/consumer.py     |  2 --
 .../coati/distributed/inference_backend.py         |  1 -
 colossalai/shardformer/layer/loss.py               | 14 +-------------
 colossalai/shardformer/modeling/qwen2.py           | 12 +-----------
 4 files changed, 2 insertions(+), 27 deletions(-)

diff --git a/applications/ColossalChat/coati/distributed/consumer.py b/applications/ColossalChat/coati/distributed/consumer.py
index d327cc62ca57..bc05098b9aa1 100644
--- a/applications/ColossalChat/coati/distributed/consumer.py
+++ b/applications/ColossalChat/coati/distributed/consumer.py
@@ -63,7 +63,6 @@ def __init__(
         self.generate_config = generate_config
 
     def setup(self) -> None:
-        print(f"self.rank {self.rank} self.world_size {self.world_size} self.master_addr {self.master_addr} self.master_port {self.master_port}")
         launch(self.rank, self.world_size, self.master_addr, self.master_port, local_rank=0)
 
         plugin_config = dict(tp_size=1, pp_size=1, precision="bf16", zero_stage=2)
@@ -155,7 +154,6 @@ def loop(self) -> None:
                             i += 1
                     if self.lr_scheduler is not None:
                         self.lr_scheduler.step()
-                    print(f"step {step} save_interval {self.save_interval} self.num_update_per_episode {self.num_update_per_episode}")
                     if (step + 1) % self.save_interval == 0 or (step + 1) == self.num_update_per_episode:
                         if self.rank == 0:
                             print(f"Start saving policy model at step {step + 1}.")
diff --git a/applications/ColossalChat/coati/distributed/inference_backend.py b/applications/ColossalChat/coati/distributed/inference_backend.py
index 0c08bc2ba6c3..4f0ecdc9aafd 100644
--- a/applications/ColossalChat/coati/distributed/inference_backend.py
+++ b/applications/ColossalChat/coati/distributed/inference_backend.py
@@ -201,7 +201,6 @@ def __init__(
             raise ImportError("vllm is not installed")
         model_config = update_by_default(model_config, self.DEFAULT_MODEL_CONFIG)
         path = model_config.pop("path")
-        print(f"model_config {model_config}")
         self.llm = LLM(model=path, **model_config)
         generate_config = generate_config.copy()
         generate_config.update(self.FORCE_GENERATE_CONFIG)
diff --git a/colossalai/shardformer/layer/loss.py b/colossalai/shardformer/layer/loss.py
index 6a540afbc048..7c43e3659901 100644
--- a/colossalai/shardformer/layer/loss.py
+++ b/colossalai/shardformer/layer/loss.py
@@ -168,7 +168,6 @@ def forward(
         ##################
         logits_max = torch.max(vocab_logits, dim=-1)[0]
         handle = dist.all_reduce(logits_max, op=dist.ReduceOp.MAX, group=process_group, async_op=True)
-        print(f"#########debug loss step1 mem current: {torch.npu.memory_allocated() / (1024**3):.2f} GB, max: {torch.npu.max_memory_allocated() / (1024**3):.2f} GB,")
 
         ##################
         # Step2:Find the local mask. local mask will be use to select log_probs value in Step 4.
@@ -194,8 +193,7 @@ def forward(
         masked_target[mask] = 0
         masked_target_1d = masked_target.view(-1).contiguous()
         handle.wait()
-        print(f"#########debug loss step3 mem current: {torch.npu.memory_allocated() / (1024**3):.2f} GB, max: {torch.npu.max_memory_allocated() / (1024**3):.2f} GB,")
-
+ 
         ##################
         # Step3:Calculate global summation exp logits
         ##################
@@ -207,18 +205,8 @@ def forward(
         ##################
         # Step4:Calculate local prob. We first cal log_softmax, then select log probs via local mask
         ##################
-        # print(f"#########debug loss step4 mem current: {torch.npu.memory_allocated() / (1024**3):.2f} GB, max: {torch.npu.max_memory_allocated() / (1024**3):.2f} GB,")
-        # torch.npu.synchronize()
-        # torch.npu.empty_cache()
-        #sum_exp_logits = sum_exp_logits.unsqueeze(dim=-1)
-        #print(f"#########debug loss step4.01 mem current: {torch.npu.memory_allocated() / (1024**3):.2f} GB, max: {torch.npu.max_memory_allocated() / (1024**3):.2f} GB,")
-        #log_logits = torch.log(sum_exp_logits)
-        #print(f"#########debug loss step4.02 mem current: {torch.npu.memory_allocated() / (1024**3):.2f} GB, max: {torch.npu.max_memory_allocated() / (1024**3):.2f} GB,")
-        #log_probs = vocab_logits - log_logits 
         log_probs = vocab_logits - torch.log(sum_exp_logits.unsqueeze(dim=-1))  # cal log_softmax
-        # print(f"#########debug loss step4.1 mem current: {torch.npu.memory_allocated() / (1024**3):.2f} GB, max: {torch.npu.max_memory_allocated() / (1024**3):.2f} GB,")
         log_probs = log_probs.gather(dim=-1, index=masked_target.unsqueeze(-1))
-        # print(f"#########debug loss step4.2 mem current: {torch.npu.memory_allocated() / (1024**3):.2f} GB, max: {torch.npu.max_memory_allocated() / (1024**3):.2f} GB,")
         log_probs[mask.unsqueeze(-1)] = 0  # set masked val to zero
         dist.all_reduce(log_probs, op=dist.ReduceOp.SUM, group=process_group)
 
diff --git a/colossalai/shardformer/modeling/qwen2.py b/colossalai/shardformer/modeling/qwen2.py
index 8c5734644155..bb7d14966cb5 100644
--- a/colossalai/shardformer/modeling/qwen2.py
+++ b/colossalai/shardformer/modeling/qwen2.py
@@ -95,7 +95,6 @@ def qwen2_model_forward(
             batch_size, seq_length = input_shape
             device = hidden_states.device
 
-        #print(f"######## debug 0 qwen2 pipe model, ls: {stage_manager.is_last_stage()}, fs: {stage_manager.is_first_stage()}, hidden_states: {hidden_states.shape}")
         seq_length_with_past = seq_length
         past_key_values_length = 0
 
@@ -177,7 +176,6 @@ def qwen2_model_forward(
                     sliding_window=self.config.sliding_window,
                 )
 
-        #print(f"######## debug 1 qwen2 pipe model, fs: {stage_manager.is_first_stage()}, ls: {stage_manager.is_last_stage()}, hidden_states: {hidden_states.shape}")
         if stage_manager.is_first_stage():
             if shard_config.enable_sequence_parallelism:
                 if is_share_sp_tp(sp_mode):
@@ -193,7 +191,6 @@ def qwen2_model_forward(
                         process_group=sp_group,
                         grad_scale=1 / sp_size,
                     )
-        #print(f"######## debug 2 qwen2 pipe model, ls: {stage_manager.is_last_stage()}, hidden_states: {hidden_states.shape}")
 
         # decoder layers
         all_hidden_states = () if output_hidden_states else None
@@ -512,7 +509,6 @@ def forward(
             ), "Must specify sp_size and sp_group for sequence parallel"
 
         bsz, q_len, _ = hidden_states.size()
-        #print(f"#############debug 1 bsz: {bsz}, q_len: {q_len}, _: {_}, self.num_heads: {self.num_heads}, self.head_dim: {self.head_dim}")
         # sp: modify sp_len when sequence parallel mode is ring
         if sp_mode in ["split_gather", "ring"]:
             q_len *= sp_size
@@ -520,15 +516,13 @@ def forward(
         query_states = self.q_proj(hidden_states)
         key_states = self.k_proj(hidden_states)
         value_states = self.v_proj(hidden_states)
-        #print(f"#############debug query_states: {query_states.shape}, key_states: {key_states.shape}, value_states: {value_states.shape}")
         # sp: all-to-all comminucation when introducing sequence parallel
         if sp_mode == "all_to_all":
             query_states = all_to_all_comm(query_states, sp_group, fp8_communication=shard_config.fp8_communication)
             key_states = all_to_all_comm(key_states, sp_group, fp8_communication=shard_config.fp8_communication)
             value_states = all_to_all_comm(value_states, sp_group, fp8_communication=shard_config.fp8_communication)
             bsz, q_len, _ = query_states.size()
-        print(f"#############debug 2 bsz: {bsz}, q_len: {q_len}, _: {_}, self.num_heads: {self.num_heads}, self.head_dim: {self.head_dim}")
-
+        
         query_states = query_states.view(bsz, q_len, self.num_heads, -1).transpose(1, 2)
         key_states = key_states.view(bsz, q_len, self.num_key_value_heads, -1).transpose(1, 2)
         value_states = value_states.view(bsz, q_len, self.num_key_value_heads, -1).transpose(1, 2)
@@ -544,7 +538,6 @@ def forward(
             kv_seq_len += past_key_value.get_usable_length(kv_seq_len, self.layer_idx)
         # Because the input can be padded, the absolute sequence length depends on the max position id.
         cos, sin = self.rotary_emb(value_states, position_ids)
-        #print(f"#############debug fa cos: {cos.shape}, sin: {sin.shape}, position_ids: {position_ids}, query_states: {query_states.shape}, key_states: {key_states.shape}, value_states: {value_states.shape}")
         query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin, position_ids)
 
         if past_key_value is not None:
@@ -581,7 +574,6 @@ def forward(
         value_states = repeat_kv(value_states, self.num_key_value_groups)
 
         if shard_config.enable_flash_attention:
-            #print(f"#######debug fa q_len: {q_len}, q_len: {q_len}, query_states: {query_states.shape}, key_states: {key_states.shape}")
             atten_mask = torch.triu(
                 torch.ones(q_len, q_len),
                 diagonal=1,
@@ -857,13 +849,11 @@ def forward(
 
         layer_idx = 0
         for decoder_layer in self.layers:
-            print(f"#########debug layer {layer_idx} mem current: {torch.npu.memory_allocated() / (1024**3):.2f} GB, max: {torch.npu.max_memory_allocated() / (1024**3):.2f} GB,")
             layer_idx += 1
             if output_hidden_states:
                 all_hidden_states += (hidden_states,)
 
             if self.gradient_checkpointing and self.training:
-                print(f"#######debug self.gradient_checkpointing in")
                 layer_outputs = self._gradient_checkpointing_func(
                     decoder_layer.__call__,
                     hidden_states,

From 7f1f0ed5b71fb220090ee17833aa86aaef0b27fa Mon Sep 17 00:00:00 2001
From: duanjunwen <935724073@qq.com>
Date: Tue, 20 May 2025 18:01:49 +0800
Subject: [PATCH 08/24] [feat] support msprof-analyze, add analsys result

---
 .../coati/distributed/consumer.py             |    6 -
 .../log/mstt_advisor_20250519174404.xlsx      |  Bin 0 -> 102316 bytes
 .../mstt_advisor_20250519174404.html          | 7585 +++++++++++++++++
 applications/ColossalChat/profile_log.txt     |  278 +
 applications/ColossalChat/rl_example.py       |   10 +-
 .../ColossalChat/tests/test_hybrid.py         |   80 +-
 applications/ColossalChat/tests/test_ray.py   |    2 +-
 .../ColossalChat/tests/test_ray_vllm.py       |    4 +-
 8 files changed, 7930 insertions(+), 35 deletions(-)
 create mode 100644 applications/ColossalChat/log/mstt_advisor_20250519174404.xlsx
 create mode 100644 applications/ColossalChat/mstt_advisor_20250519174404.html
 create mode 100644 applications/ColossalChat/profile_log.txt

diff --git a/applications/ColossalChat/coati/distributed/consumer.py b/applications/ColossalChat/coati/distributed/consumer.py
index bc05098b9aa1..0b529dafbba4 100644
--- a/applications/ColossalChat/coati/distributed/consumer.py
+++ b/applications/ColossalChat/coati/distributed/consumer.py
@@ -18,7 +18,6 @@
 from .comm import ray_broadcast_tensor_dict
 from .utils import bind_batch, post_recv, unbind_batch
 
-first_sleep=True
 class BaseConsumer:
     def __init__(
         self,
@@ -124,11 +123,6 @@ def loop(self) -> None:
                         # receive data from producers
                         for r in range(self.num_producers):
                             print(f"[T{dist.get_rank()}] Recv data episode {episode} step {step} from {r}")
-                            global first_sleep
-                            if first_sleep:
-                                import time
-                                time.sleep(720)
-                                first_sleep=False
                             self.buffer.extend(
                                 unbind_batch(
                                     ray_broadcast_tensor_dict(
diff --git a/applications/ColossalChat/log/mstt_advisor_20250519174404.xlsx b/applications/ColossalChat/log/mstt_advisor_20250519174404.xlsx
new file mode 100644
index 0000000000000000000000000000000000000000..7d6f70c735bb1de84b3b47d809e90965ac236ee4
GIT binary patch
literal 102316
zcmeF)Wl$aMx+naFySux)ySux)OK>Maf&_PWcMTo_1b4UKu0ex4yyV$?*UWQH?Kv~`
zews6@ibVrWH#dF%*L8LOkXDuh14jn{0MPFbAwcr!icup701$)*0KC5d^u!z;+$<d2
zjMTlIEL;s3z3lDA(?%70nUN*#d?a=mZ1wS|kvJ^6&0vy0BQakz)@3ZF3<^KpanleB
zE9*9)HiRd8S)MtgXG??}T$N1ZkmNZx8<U<lz}x+5teXuKST(v+)DBV6skXJsH-;1T
z5M0JvXW}<b$zZ^&ikQxIj<JA<?pgKzYGbu6T4?$mLG4U~M@?<BeuL=u%n~%`ttnqn
zbVw?*ijw<S&Hk?oRC3{H`ZjIMW*rE%^@S33meVV%%Fg2Jb=1qbrFmlu{<Bih0e^XG
zPd_BD<2D6HN^FEB?Jr)18S4E_bc5aAyXAsL0((&MT<K}3Gf}0KO}kT|Hd6w*lA>Xd
zf@xZosf=CwTj%Fxr-p3KhOSYOxK77~1xR`9nt;0UtGy|q1hdB+V{Z(-15dM8Xdh>j
z+rw46g;4v2c9nse_zeuQ^ORGi7mQuA*AV;!=s^&a7%@_ODRFK{aqgIKr!3?xZi*g~
zM|I&cYz<|Vio9)g5s8Yx2n`5~YFJuB4D~+RvNR1<mdYYiO_~0xga{o9j0Ra+%VhO2
z+Va0vJTo<z7K0wPVMk@3Jv$B_ES=-GKZSCBgi!w5BwyyrEdP3+Tscqx0PcNh<YHmx
z%Eb8Rb#+4b`{cq4pTAG;Q-*^ybbfIganTwjyI>c&171^fVPDYMd3c;Ke6$TzjPuEX
z)#&j!fAmqb>McGzeI+hB#OOrmMAzu6jWZH09AqdN6suDaeCEF8i#(ZZ`EW<94u<p)
z<j45?Jojb+g*3Vt^bw^|8&R6cxnE%(T`|`cHRo=R!=Lwq%bO>Jm%me#y|B!1*g5Dq
z{)#^}DIm7eeIB7UmnR4h@SZ!*3enonr&XRhFwk6Rdlo3ok)F!WYtFJpQ7c#69@Xu1
z$6qmkIhc%+6K#2G#n1Q>Nam>nWA@BCL&Y`a1Ni$9X*cqJjeL*2GAaOo`+h{c?3n&>
zP&^%7KA1W>e)tpozYb8xqMYq}`af^^Dw#Ao?&2KiY@4gWE;auG2^OeRup5>>B5SFY
zu}&1m{tn&1nlOED<O|KTuwjttlYkW6&>E;xfm;8C4o`3I$oJ`zTT3QvAf?1T#l<}@
z?`LJ`9$gb9qLt{{H3?40Vq7Kfz^lx$^4wfHvx~se*7(H3M4!noy0uJGN7|XR617t%
ztFrm|F>|&35l30&;oGTMf6KPD8k)l;3?hOhuN}0<(FfnM@NMR~`v}vT*XBS$L1T7#
zjYki7*g;~fM3_Ny{V{EB%dvj>U^7bnF?DXsk^Zq@GfVw3eQwK%e)?cDOnvyGnWJL6
z819~`9^!H4uZThHeO<EfGw5I+SftJ1s|JY2S-uhmu@7}cz|W9_ePER?gs&Q*u4b*L
zEo>Ya+KBFF8vLK$uZWtVC97nWt&I9lA9V51O5SlwnV=cmvq|h{YOCxgA=HIEh?vcI
zc{R8|Xu44UA+fP|#Jc11)FNs00<HV<AExkA=|o)z<a?m0008WNOyQr&bG5dxaC2q)
zYr*no7LzmNT(`N=zuaBXQQw+X(GAC{C)6Nz&(N3H+U9)VN(;8_qB%Jmdw!}5K=zr$
z$Zt3dEF{aPiz%+PcMy7M(~13|)n=*Tcs@WIF<5BJSBq77I=gmXD-@aAa8YJ6dRm~r
zuyW+^Y&0JwwD#uqq<j8@b5dhI<~vC9_}YD|y^#ZDqUEc;{Rm}+QHA|NeU)cs{ptEy
z4(0f04K3D_V&+ZoHg~$+$h?OS_LimRIQET8Ylc?r&GSmha&xGN$NYD@wqIP6m8q6K
z{%zXs_Pzpz22JgF{+e8dRy)Hlr>})?h8nfwOUEjDeh-DZT35}wZg9+mH_5)`$F;sY
zOxfsn22@imi<3t!Yt||ZqmIY7caQU0m8A#Gczw49`#0a0-uRZQnxEpi_BunAv>BEU
z+Un|1EHsybPrR;+ZI?~w&sGjLGMd+)U7gBzv_n-6xnZ*<hZTzCpUKP)cd#GXLsV_d
zhf2~P15C!8v9AQ9TE904cr>49Usdu^4NeR{k&2f`xMmv)JzaB4er$%;@|=jtZn&Fp
z+iPLw=`$tDAFO9Mcl5kDwr=s{VzTh3D9@~tyJ*J}x;y$&jaNH)d-rtjaoIt%f9NF~
zipyJan3unULh$i0Ex#9@0D|{qYHKPUo`8_x*D%YkpT8Ql$r&+E+h%p{q8KoFU7EEI
zmF@b8Hs}*u`nN>8AqFA*DdAyfO-*pA`hV;~b@%+(E4NJa+U<#ggTTVaYDYvj?GuHc
zNT4_s`TDg?0f8wPj*Ssr-%0;BrE(YsTphO@=H2^Nmx37dG;o=F#m@PgfjfaM0W+v|
zjo?)MOog!wv%&sS`f2}Ip#=J+$drU;BEjGkiAb-6=6~$YCNEB&o;*kgRR}_`S)R=h
z8p~3j`rGEW%?4qTR&D8+hTW&d!4#VbxUGK<&4-X$y#KNle}_LjcZ}#$3Dsmdwz6d&
zdLFm(b1Q2VwJ<KM)#%+m9sg|NK?iBgm@tj7bKbqHg?4-t80@4AYkNVgfLg!Oxzs;5
zYKJxXoWLWzMWgh**xJLU@fkGlAKQ3gY=cmM1@!FXpc=++%6Llzh7!ocQpEy>*&v1h
z5n%n5$Q;x-c<4FzeUs$fg%5^|-snsVImvSEt5=eV`$@&&G4+ePYeahAOpRj-xnq_j
z&e54eVMRg{%Ed_3tQVCbknDs42Y)AnV1g6_`UAE#!laVm$zh$vdiUtOxH)ABC!%4Q
zA(BARp(3<M)Kyq3smW2sFH|mtqXVIA!2|!bk!eyC3oMC5uLk{Rcst!dD9&oG*l#u<
zho85FFKGLC$r}(!2C*k{-&ZgU_i|MyN-Z}+Mstp<Nu(6;%X}xGu>_%o+<z(Q4{-$_
z6DP4GO;3mR9&*aV;70}@?hSIflolZd&?@6o=ZFeR1U%6}%Y~dz2SNoAdl5ss(Lf(W
zbH>c-uTYQ9`n(MW3DZO4|6U!w_`yoTOolTCoj>a2g~|W*ScdS&F-jgTH3T&xx)O;x
z8O}U3%BWKoCO`HqopLl|J}yW_!258~ML7~wqLJ(1g{mNsLSA6i3+2i<ts5y>Xn&$l
zlN?8c5-1~h2nch)=Hm{RNrq{Mu(fS=6GIb1i@MN23){a(fd5Nbw7D%=5kumo3j}G<
zU+X^p8Kq2$C6wj)CGwyT5hJ7}4|LZ@bW?!@o!Gc(_*G}DGkFnYa3pY&HgxbV!N0!O
zMJd)>l<kbIMJg|5=s>8zI3w5|@4^Xp$t0=r>6ehMmR(chv!E`aQ50m-FVHHZ!DaC$
z^i<;AU?Oq+{Ls8VkiijJM&6U>MbIP2V3sSX-|(9sQsA#cnm7N27#{a2ktDJ@#`MGE
zXtwKA7yT=fAsERKGKp<EGDkx8UNH4PzN~O+AmDE2p9yx@Y{lQs*!$Oz@|YmD+F8QY
zGFQ|klKNlP@cr1~$F`^QE?A79F`M8caY-g!wA*{w=6_cqCE@&a>}$pN%Pa`zhMZHb
z@^-hvn7p~SKX@HM$%4Gc`51Z0CjEpRHGL22`|j4{7`ReTZo!9dF#lRRVS{tPZmJEM
z*|Hf>`YTZC3U`YV|DSs`F0o*qg;s~r_YDjcqKe~(sYP+<2~hnLL0oG)ms_&*)XVb6
zrd5IJ=5cEShPGdQDlOD)y+}2;wJVPnZxwGaifhd``=@KJ8jKYNZ#64@Deh}OI(`ZL
zy5?(sdIS0US&N6W69?A&Ib6Vd+xs^ykM*yXmn;{X$^72(UNBPb`i%``z@theRNBha
zHGHcCi~~77$DfkV`Wvl~+YD&iT7mtz&*}|jO55JD!0!r&9llrZp@t^OQ|r~^B#^z|
zd3t?;1T7z$O9)VE4DKusMw)Ni9_w#7q0tbAlCKZ$P`yGVS-N&3XWeAWzLp>Cmri2r
z2N~8;p3$A<CdLoJ!G+1(O!$iSme}1E!_l}u?p&0pD+*2!HgjKZ)ex*P%_?A(0|mXD
z{F`NY9!Ffm<or2tx}hBp?21?^ODJ>ORj+4CdRn%v1=$F~+D0lS=y6~&mzwWdmPyx^
z9)YMxATT~XIoOz->DI@x`baLUfq1-^yN3o`Nxecq&Eq?dZ2zE9B=vW329kT!Kt~cC
zWD1kpkg$7Hlnv4XYQ*1^(K9W5<f&=9Ov98zg-&<}Z}1|cGm92g;iMWQ_c+j%DQqlE
zN{w=EJGibF)A~)WypxSr>K5Jsij)VW51a9JhH`=*$yXK<KE4;3OmLe4JnGv()8oOr
z*CCJ&*(r?Coo>VwDb%MrQzp&!TPj4&6H{;g@}RwVbHA#-$mFUQ2R$^b(H-YU{ZHh2
zLYhbYvRbbShsMQ>DT6!gKW?SJ6470mT72+7F}C>Ehg6~9)_hCZc&3=d@fXRvh577Z
zgYZG?PCj{5-P=i7Vr|O$KP*%%d=kJYnQ>GcZ2gXDDfR6|phD>HVFK`7g-w7100b!i
zHcV`P!W6B&;;_Ss?0c>S{gG*W%R(Bm8B1?P<ViVC`}(q~X-`{wg_Yc*;pGX@!clmp
z@%u+<`pK=}P*=XO=iZjtx_ezu-`N~23T8vh8}F5~jH}Ut=i|wPTzj2sG52+i!CQT%
z5&z>K&tIQyUVnNRJ&GA1LGW<jMP4$)r<N{NZ4e%*%{Sbt<__08wyAMUeYj&iW->51
z9gry9k#~w|P@B&htqd(alk#bN@@=SIIK915&ke0itP#`%v+opQPyL}k;fb)spIcD*
zzE3iK`>v#hJ)h@Uf36!nA|FQn#7X<7{?6xSy`)t!E6>FPXDolW{+e~I+QBWgr`r!}
z?f8(q9H*&vD`rBk^or3!BlX-G8v`4T;||>Pvi(&*VXLPtE?Un*4=l0AR~G!NmEQD4
zoLt@ANgWjX+R%C%w@~|HpW?WP9@n70z3K6{CE$eDR_5zYwB1%8O1k-%`?PP#%<4G4
zq!PWf6h=QkK>HZzW=;P1D8x0ygcBA{QVHKT5a$lLZ9241xP8xOF3G;$8b*)BQiHW4
zn-iDzwOSO<IvNsvXW98}C|EMANm4qWfw??*P_&1tPqwkg*$SI$WSZ=%&pah9ix_h`
z0ilXCQ<4#$wYU*4H&{E2<0nsH09$96S8<<cRl;EzW0`1Jo-601oP~EejA6b4dAmA3
zvz$bKR0CNx`KJXEP3OoI(E<8H{Vvfe=Vjc;7!)4ZR5fo?UO9OsWH@^nk7~Dsa77r(
zfz@q(hBD;iDmTb1GtuFvMF-KcDPjy+^TWx}O)$f>y)S6(qM5Q@UpSei1>!CtFebrG
z2p*;pf1PmbT=R+1_u+~uo0YjyBs2B|!LsR?S_W!c&%&^vq0JhzyKdH}V?T%>QnOo?
zbrFdsY-J)xF2fX~;5d!w4iX_Z=$LxEf3_TFTRjU4t^GtW&RvFs2Z1StmhfN~^{|V*
zCE5donQtHc9ydjy*A$<AN?PXok(p81Gc{FpH4ZcLSR1cGu7nteARSbe_J@|Cv=gQ0
z9WS?{F7b_!yCF91x*|(gQjUxo_S1@w|HyUUuxA<-q+shp5P%_|ZW;nIG`6@RZY&Gc
zn3P;(HN>UR40TONjhI$|g=-*-MEY@=TZZhYn?JH!pHx;(PqW-(NnE%aqJNa6!Hf(c
zLrtE6N!VC6KwMIq1Dc$)54R?bjZ=;RlY|(Y!8obs2j{FJY5)ZVdA}kvO?i^VRDtP7
zZyZoHUUJrw2onrF8aH)M`CbjP^duwjk`k#VD)5~=RyICJJ%zC;B!$!CC4tS<R5Ipb
zDN?ec2=ZoCJrqS&GL}jbGUfsZ@)v16PDWH^F2DHCb*nlEUHG`XTu;<~-Ws54_2jIg
zwDP8vBC7RC&ia;62Jjy2NC-_{u3BCw@X!)ACNh~iwJn6qqsOResFd+2sy3*4GRH8q
z{O#exZF2JDiqf)p(ds3p@?&iyaNTa6ZlF!Z%Sg`fE`s~1sZ`9xO7G)=g+L7#9T#P>
zxF2H5-bG3K7zb7~W$<Nrje!^vO@y(W2=4e{ZFoe-iKIiF>E>MHZYJw#Tl@T1^B~T{
zQH|E+#nqJIfYNKtDxzEe%d1COrNP<*SH+X>3gU**^Zeb55Z>t9f4GKppzlKPhX4So
zasF)$WdBnGv(w+NAtjLq&mYi}&QNBr2(i94fq?N8(I$`VR6&@OL5R!LcRbwU!2Hx~
z3DKbwJR$X*JTA>Sd)*l>bu8UEq+qHPbIzfRt2a-|<?6q6^2?y~e`$SQqAaYKm{>W{
z&bqR>bTp*MwG>h?jJ*8NG<o%Lmx^0!*4$_zHT2@!^2wE&W^q4-(5KNFY9*ahqR~=k
zcbY4^6+~Ww!7LU5L5omVm+Y<l=OO%l2hYXbNYg8yk;xnP1Xdx-rVYO)A^i$-&LzV3
zYM#lmG0)juHvXz^@|~q3gU55RS6z3(*o;IUnuyx*-r5zL9^3`zNzbLT?K_voanGfz
zy4ON4gM-jg-_!DP%b^l(&C|}p*?f`oD8;3g+qZ?@=5-~sblu{jW=V=dCT|TUB=-;N
z{95kLj|WHKE#)<dzgNhg?NJkHd%=IlPLepdhPCi;zx_7$#-rbW40`!(?2cEp4%LQ)
z^s}Y=(RYOzKd*J%^mX#})cz~M*S8A}_~keqb9c_nr2gYFyN*h^pR4FzUj=2k#+ih;
zI_>TKeo%TCS!yZ`Fpcwbr5b@ULbi=PF(Q5)CEe_)8#U{aFiy4Tk}yrx=#nr=b?@4H
znKGL^M!-c9-8uDIk1-F{?BhIN{wAGmmZE(05gUPbFE4Fo?9HiXyY85-t4I~Dy1MNZ
z*}=f*YdN@#;TCN57`JEn?lK1)n+&OGv}QB0s#y`Un+3QkxJU%_P)#)WZ2N~DR*Sr0
zOe|A?w1_b1f#%iiVN~BC>gmXV=)~~4CTI{k{S9+;BZ4$;n1Ru7nnD1}8|q3j3A`$#
z$jF~v;9D`ui0k5F!SMi!$cdBH3#62{mDLf4D71$`z^4-i?)8kbnqu1d#FZgnDxkY-
zqO-hftf^Tu9_9dn5y-n^Ql!kN$Xao*L36rO%IaXk1<BEvG-~=RIB*gK;N@h*ZJY@$
z2N}TyZ0tNogwnb0;&7<aJ)h>li<nni7);`DH*A;#yL5h$C*eyZl9BTa;%3L|oWlmv
zgh>>^1hS*V8Q?9Qtj2|%VBoNQF3bm^p?4);VnhHrq;I{Z6C*`Y?QWc9MGuDrLoe6d
zG%~9CzDO*L2eQ}{zca=FK|Rc2um}RqKw;g)#;ae#07(-?N=SzXBBOe@Od2=iSv$b|
zsdUy^B$zSq>xV*w{6c7(%w{JrWZsA=sk8)>V1td4*{u*#H!xF_YC90sI8^<{SrANz
zMjdbp)`VkTsR2&5nV%Uq+UvE<L#_6B(WVo@Y-BFC>|Zz<2R8ftr?|KK8N7@JlT%c3
zJcHr-ygZ^~F2P3<DH|bN9!OM(#lNtpG=GuX-OFYVB9tYL$EjTK(qN)c%}w>~caT|c
z-9b)aL!M<Df>xgvR+^a_ZTn1;0r{~&QdbVIj{=#eP~toRjHm~-+P3k$_Y0<CUj`90
z9d4Kmu6a?de@qpFoMIv+d_0G+dvwxj9p5<ldWPd@Q?We{yb7n6vp<olvfqTY8KQ|j
z7>jdIl<*!xeY1Pmv?`)+fNLi*hz7SPH*&{ECo$TK=z{{S@c`*;YqRhy3bvU8<l^Xd
zFgAKu;u6<5l(HF-pPKY8%Q~V)$KuASb%pTE3VWpMiAbg;)}Dy!2Ynf&yY%VGhV?kZ
zwG`58CODeB$cen~-_i*{gHQ7s)HQ4sq{7oj<xA$_A&t{iN7o6-yjYwqZW^YKcbn&E
zuPv0R3lvTOETOr*$+F=#eu4Mr2*O_tSxnViec{dfXjD^7%393gFPr_*JLPjJYq+$!
zkptPa-b_nsuX>t-1QYXzY3D~aJ*q-l-Y;k(PpyoMr=|PH#|1T!vv;MwIrdle-j_C?
zw9s$vLigeJS~?rYUcvr;;;M;M`?cr&Cm1mv|F&pz{3+VS1_rLH+zCFNM)|V>MB+Xu
zo582i9OGx2Ty5UY&MkLUO)Jf&3{7G)QFpH|0rm834S*;NE~K`da=SceayX4)(w8Hq
zxAq5@+rf*o*GIRfNBzqE=M%4|*Xymv+u7r*x7XVF&cUmOr_jn3BrPMwmcfOCw@>Xt
zZ=;$1-Z!Uicd<{CgFC%CxSO}HHxCD)p|za``m3F9KJBgFwMuITSIi&0zPGi0l=g3b
za&vyWIrF;Nx{%^BVw9h4#NyIgXgS!Bx<5VB8sPSQ_Ii1}Kf8Xt%iKBby%RZ$F{&X<
zc)H82?Of08^uF2RUD`k9Y2)+r@qN{LS=n8C=+D%OReL*qyg&83IJde=etvO#9DEKP
zMXH_5#Q8|_wNi@db?5A)_hM)M+=%e?>e}A5{q_2Rq&g$l|MK;E@Able(xK*{m|v)^
z_3>cm&A;vS_wR=rZ*|I#r+Pb+ldpd5{@MmY{23c>es50SA9Bx$U)bmFM8;-`_q~zL
zl0C-d2EHnpEgrDARr*+0`E?VY*&yG!#{C`@x>XXo74kpPxL$8!dHxP}I!k?e$!pkN
zuw|3<6?-q$A3xU*KiB`n=sVupEb`hU0Rrt|NduEM?AkN2)|G2os$+%Uewm@y)v?f9
zx1xQDVf($QAF}$&8<x;DQp^#A%$nSt)EjZ7;n(@srAekA8_%%;+iUZ^^O;(nrH)pf
zv4>B!TCP5Goy91#;#dAJ$IrP$(KcN?<}Vi|aJ7uDX;2>n+sB1TMIYgd#D@4_rWJzH
zNJ6K>boQ7bS&s1sNG%h4x%>3@nF(1|@Jl4d7(??l2wkyt_k9t?j(vuV*{iRTdY|<V
zBKy*;mecs{$9ACipB%%PgzQGAZ9*UMLp%=GTo5f~`<p8ke`2hZn6?EUH_@!>t?!<q
z&ODYimclKA6xgdb24g$J*Xk4Z`Gx062+(8Qq#+Y+97ej45LumccC<aONL<y52d6%R
zTAN%oeziDXUmi=DMOZjscI)kEz|d8<tBkNWsI#YS9xZ0@$esysSUN@B(l7NX!t;QF
z&b>603PTx`9%Bt&)cW~iY%~_}z9;Ri%PJ?h^RP)r1Ixi*6GyJth?t{1jV!-ji`=mR
z)6{Dy#$UwBQkq>l8cWeb+gCRy!>Q%Wtea+1CQ-20XsxUt391SZMw)lKzlj$uitPK2
zcY_&bv7|VR%K+?hzyv2jI(M0!yR2?gV+I97O%Ul1q)EQ-teR+p7Ra{jToRdrnR>S@
zSU1<uAT?d=wOyh5oT;M?ADp7b^@LX6w~N`~(J4lU6*DYp=?i`yWyMyo;6pARM=Lf+
zNDG^>l<q3GM(h>WnJ{r91w||F*GA!1|7<|_Lu=vs)7lJpX0s^FSDksB67cbL=kG8c
zi81)N#zi3ah8tS#e2w4QmS?khH2`1VNIKt4aICD~#4H`deSHyopNKXe+t6dHi(5k|
z21>Rwn!TDD2N#P`tVw?6w@2V%uQ}_2yy7g_%zL;Y=wXvU@J${-a4&k#JI`|l21Qin
z3XB>58ie}I^0F8oga-0l-~vk6$B(pq*+)(&-Z~ia^XsHBI8ushQI#OYY6?=0Nq8NL
zJ@_Cfwm4tv1VN1yNCB_zp+Z#xNVeND4GOaHXP)1)5+_4a)dgfkQkU^^liCzuuivJt
zNaVqpi}R-ThNl=><;@RS&GR7M=TG;uC&8*44RKl5F*iL+wZm-p<lP=@s7*$mZb>hy
zsX_%Vcj5{?iVwdVI=-qMDOby8i8BcSh+ERxkb+~<mYa>fX%^eByshtr+Xwk%ioZ#C
zGyq-UI=W-BTH~x=NHqEJQuP!+%^wJpN_Vm6+p8TZ#eon{RHi7+VLTpbY(6<6geAd5
zoVW);Gb%AoPsW8U{9bCekTNqi%qy(6mB=%e!c%m(b(cc2)>P;{=9x#9j!vj3Cjl{Y
zIE3fYju;Bmj{NLx_kCWUPVF9~gT;WCjQ=>E4t!}qS8-&4T~U5VTO|ZE?7UUZW$`gC
zrDbn5kRXOJn<gV&6wx!A75_-mgQw)zz0;zWf#4=`IJ_pC0WEZqoXGeb@p)ZNxk3m`
zmCCL#YZCVIj;7=qh;Yr#2vm&%%6kXrxf2hT>t{^0!TT&-5LY=d!fQ&Wk73gvqt7u?
zPe%5@yCLE;q3$b?S8Ma8lbLM`Z7wacIEU#q20wh55`qy$FAa{KM)l=DJ(HWz7NEZ3
zLBp`;X89$}xc3=9QYUbys2GW!+Yvx!)APz%?Q)3&^N<;XA(-KD;#f*5*Gcw-r@s08
z!RY1=@RM?0oK&rvB#suMNiAq%;A81TSo(=YF4(X!Xkgw|wF-j}0xrN@73J_-421ac
z?9Z>Xoda~L@^1(Rb$e0C0>1E4+hZU~D`Puo!ofQEd$P9XO07i{O0A0ApI@A>B*>l7
zWkf~RXCO$_gZKwj%O(!9@R^_RhdAYt(x?z-iXe8}907CsS5BwjLB*xZKOFnYsOy7q
zTa0ASTIeJlSpJ-XSY%#cAua3|$#P+>-^3`=56NYYI`mX72wYvr7WnK<88c=>2TiUh
zf;~@MRmWbz_MM7K))$d{XT&AvXYmbcMwn!{YGn+ORTcD1x!VSt4j>^g(QF8kWc#;>
z((J|jMMph_5N`5_$v%{*sH~ZUzKGU=zI1R(MkUnOiMC0rM|Ck`A=sXB$nNN3wd`pL
z9_2fpxLv3*vnGucEHi+-F5_TJFD%MccTqawXKVBgS3H0dft!p2XTumnAXKZ3_Tn-L
zDXrfRzWP){&0Y>JB;)Ls>`cKDT+nb8WmS$a$AUI0vLqKH(OfVYQ~Cpza{6i7ugI)`
zp+~oM=yLEq<!l!{m9;K;*<G?c0#`*h8NZSp`3rbG7gB?;FkHFdhVri{lc!4xD6CVH
zU2|dIF7z=J;1AuxaUgUwg1`rRDkjQG+H>CzNP1lsRi9gz$F?_|G2tgUi36-C)B<#&
zpI#yf*m>=+#o3h5k`le`0H$cvo8A~mmP=Ks%LFXHSO?fTf-yEGZK5>n=_ODWc@bTX
zvI`Uzc}dPa@Vv<Y^GK|*+29A;Z;oKhoFyw^d&rVr&MCyCLsk`d!eR13&(}1>PFWk5
z_*KIv$Wt;h_PZp(N#AO}djpQ!Q`*(l5CX=isVgBHc{Mc^B-t$<-;b_2B<;8F@v-xe
zL8c|B2w8NJPB(3m!m?uA=4lmKus<Cb8MG%>F5z>^Tg1dksnkB~vP4O<RyYuL@t%Lj
zXfGp<!zvC@Rz4J$vz8>-Lu;B05WgcDySi^oCgMjrl%+NLMyk&eNQc&_hw&h|3J6qF
zx|}W|51mKM5rKpQ{ff-O+7+JAw7&xqWz!3mdXOldgcu)aX)7FVHa=&*t1Ni*h%c=Q
zx-au3xZbA-@$*GAEWK$pvWfX?9c16?2n`Ynwiq~^IwhK?-UMNDkCGp9r&#cW1l*<C
z_0+jDya<A-@JimOuQ^(tm54mnk*3;|90Ig|Rcb~Q`p9(UWWa7X=oNc*r0N$!fcb%>
zLXEu^xJ+qdnG!PVUEtu5y0b<_UM;0XMgY;4V{z@JwMdv&iZ8*JS_UlAPuCh#U)X0g
zrH!HvBjStl(s8Y&%>Nqm#Oc%fn8C$=7zeTv2<3o{Wu^R{oy8!|QYePka`=ER9#(_r
zCXP;PeOsORB$`gJTYBKPN$|jPC*SbhM7nWT7J>jJ8TM`UN>?FDn_pPc5?x#ctO75x
zfU?ljMf=>9co;qoS7Mm+^BV0>d`)vJ#M%p9^T@Pvj;O$Cx)_cXAsnB<2{_Ena|jsQ
z(}EClg~`FY_vaN9Y)>f&Ow1Rh#A)^i8u$0A!*9kDJNwHVBb|!VftCyo)$TcJBtq&A
zIzDiFU@lW?dUbpcbR$jAO}#QD@sL0PHGyb*S6C{WUiOHfC?r^6Q0lY~`W*H>QMr)d
z+?s+4l5@N6hpxmp1YbK@OFlE&YRrM+U33KlR#CqV@SxYuL!Pka3nLx0hZHmP66CGo
zN)oyx^VElqK{_d$qZC>61c{})q4J`qt0)U19C}sxWJHzy(ta2VAZPo!;Oh5F>1XAp
zT&ei34oJ`VCo)^KIP?RkVtFJ$*j?h(WGl<Ccf88yToIeIq~$H@Y@a$)ajtgi4|ncD
zNFhlIqhaMCU0T?1%cT(E(M?L3@f;6z?}Zn}c9Y+JN2B*V9saY-=w54s&6h%M3kVLt
zG_7BR<*`9AyWeH^MYE%G*sho{2bffyDka{MTnwQ*7gCCwLa*F=mm7)<ytEMsHrt!E
z6jzw|_CEEOpvg)*ZAp&xPCS5-4-eX(EL6(fqfa>W!3M$)DA>VMX;O{PQF+uTQSckU
z_Mt~yloz)!_)6IqV90oA*R@TRAcUkh*nNH|f~tJ9G=+mLGdQwX{djS^^nDkKF7Ho0
zY?R|9VZg%j2QxM;5dZ^(3yOpwOkowbe-jbvyYkeJiBm<KlsZgVmB+7XUk$sG!1(gJ
zpAjx0ZxF#X7+fjF6%9<jd~z|xFxJS{V%7KJr)8hwkMlpFHRn-U@bIf)<30sU(T6xc
zw2ON3@u7t$!$)4`h7lW|eY<W4{}d&uhtWrdemzHX@evJl-&1Fo?|Qd%6OwmiYs**$
z-TwRH^RpE5m#LC#he(F70?dtD%M$Zz#UI;(PzmzgAw!MNA!Y}k)6nV2RRAa!rT4hV
zBDa@Q_}h6Ru6(Ke`klljGU;()#JiMO%*Kvv7llW=-34Pfh1{m#dFVp0yk!zPaXRtw
z+&n`!JaLBvU%Y+Tr%QL$`TZc0SWM0cv1Fi48?z-){BB@`c}qGXS38@#19ok|2)VK|
zGnFJDf`Zs3M=`evO!X6O-6uGuT)xRfA?Xjr^#;;Y`wVpHO!tLp!;(PQ%mr2q&XkRp
z<>VAk<4cDi$4TlPBx73(8x_pZSJnbh_IcAkB`;uFNDB&a882jo8U`-$+3#|3HXoL1
z#<ciBg{5uBvGki6i^mp}joj_l6T`?Bs;Fn6k;#id)j^!jZGYI6Pl%!)kw0@KewZdi
z#&3JrqVa?*p!-F9NuNVXs!>p%10qhg%)tdf76H%7+JKCGUL_<RsHA@ET!fg8V&BHr
zWlul-ph!q>TR`%4Rp|YMD<aU&Hvb{sLM>B8{2|`xy~(M5HeTcuEKAX=g#t8PwQ$}q
z!6Kp=l!AJ;)}YLWOXeW}`aVUa-aomyk>6g-er5Q)pPG1Y!QGz1oXWh1)R-rw($^*c
zx(gG8YvWYlpM+u(Uq`G0OIrca5v!q|i6Z@w^FDkTbRRu|<OEh65a)UoRw)XAmDPtV
za?1=q07>BB%pykx254LH`ZOmr2{^LqJ~m38h0_vP4+{lvL9iELWMtlcY~e1=7VJ@Z
zFQrsL@F;ZQv!>~Lc{=y)&OFJU6Mz!7CNmP&VJWbXFo}lF{)HzY6o!UaY+l@t*BDcz
zHW@x0gR;Gb&H|pwa0sE&lTUxd=jSG{b$`Wyt_x-$!tI{7R_AoYnn7K9_uiRl-aE6n
z)t;0yWY<_mlJbC4QXC@M#d6h-rObZc%(|qXaOCmU&2zqP2}BgJ*)U=)SxHoe5H)js
z>ir(GUoWoJuI;{X&_fp;A57o&xPFn0h>&~UM4jKGoxx1-%`Cq34ET38y>q<1```G0
zBv=rp2{gBsi*(Pg3*5<vxJ#c6<eg#m%hZ}oyq8+sIAnd0JwjuaHN$Iu$G_~#gT0_{
z^QO((dQ@e}2mdav9seHabR@iKwl!zLu3}jB{sda>x*c8gP`!WeR|NXwXk374aVnyg
zS^`fURxaT<w}LE)C;i}(j#OuG$O{^8%m8r1a>sq{?v3B~Xi9gxG*b6qFY7vI)9Kh-
zvM%Lxz9w@ZgXu&#6iH3_?>m2X`j$f~g^wK1_$5*s)Cp78@)Z{>gTpmYP-O&%dU9Mr
z$oyc$Wj7Md8MHaT=JQc0TJCU;_5Fh@3j{9uwF(qLbXDy4sOzPA!3?nQkKp@tG`pO#
zK61u@I3=6J=O}XF?+<Nu1t2yE*oj98U0BT^&<hmbC>3_ZcP4(CR9Y8ev;fYrXTobU
zqP<vtx#;~Eygh`w0=rRMe4+9~HpQukBZ82bW0+@Ugj)X|wLFX=@}3fAkgLY4Pa@9-
z$pI`Q&OvLi!~@HHtm|n_z3U1NJd2;RJA>VSN#`X^t^?vn=pA6m_*`Ad+id7Iiq_h6
zsmjI58@AR*!a=^%VbDUb%!ve1MdmY7g+%<02MLdT=1ziE^T;j8--L>Yzlxj+@${z<
zzFMH_j~6AzGbfsc6y83b&!c7)qa839=l&V>lyRZVrU*f%nn&!*oAf&k6h|X*$M}7a
z&>&Z12<h9iI$*}~I~_?xnmAEjjx<3i8<^toj{a5l{{7!7aRxJ-jo1in2g;56PMM%H
z5a-x1*$pHsckwIU&r@#A3e88>^!(IW0Fs`98va$K)z~|##9N361K1Y##_Iq{JAbW}
z*9d1Vwiu3`AC~-cQEJ^`8)Zykse}>|%YM1j6gttz@1-XHV;U81z9tf3@v!7AUlnvh
z3{<`lvACxy*T#K@AB^PsL&o3t!Dlo@Ezqb|FZqk@(rmQe9g*CVFjLy1kr05Qjtoix
z*fq=NKp+;U`Wi{F&_qy+?a8sD&35)-Kx~{FBkJ1@MC-H}6#2QAq|9#4*Y}L^#V`#-
z!g~XR&zSIpKQEpYYfx_DW#zW4%r&=}uFgl9jeo1fLE_j^XWsU}LKly%^}O=1>Jwoc
zd_NI%;0iOjN|bdD3ZjZw(bqJ`YF*9%WDN)D*m><avMv9NYRho0!nxzv$+ygcm0bND
zNPf6gY>@))D|xzOnEU?4@qT1cMcg$*e&y@$$fB#iip)2+{N)DbQMXdlyn?Y)V~PJ^
zz<1oM45u{k;>p2?{#CNKRx3B=sj^LJq2<oXD28Zuzo^XH&*SdpT-f*dE_8Nb&_DC-
zd;e^2@2~yATtT8*LHzT5Aqody{%k_OXOq`9wA?q^C9XH9|6}*$1iB~CJ%R2CbWfmr
z0^Jkno<R2mx+l;*f$j-(PoR4O-4p1ZK=%Z?C(u2C?g@0y|7PyV1$0lKdjj1P=$=6L
z1iB~CJ%R2CbWfmr0^Jkno<R2mx+l;*f$j-(PoR4O-4p1Z|IOT!8|a=u_XN5p&^>|f
z33N}Odjj1P=$=6L1iB~CJ%R2CbWfmr0^Jkno<R2mx+l;*|C_ld570e<?g?~HpnC${
z6X>2m_XN5p&^>|f33N}Odjj1P=$=6L1iB~CJ%R2CbWfmr{@?1J@Asqob5HvJbVGAy
zAbbMh69}I`_yocy5I%wM34~7|d;;MU2%kXs1i~i}K7sHFgij!R0^t(~pFsHh?*^YN
zK==g0ClEe?@Ck%ZAbbMh69}I`_yocy5I%wM34~7|d;;MU2%kXs1i~i}K7sK0-wi%l
zf$#~0Pau2(;S&g-K==g0ClEe?@Ck%ZAbbMh69}I`_yocy5I%wM34~7|d;;O~|0ejH
z_S8DH0tEn&U;u!B_owb`f8aAYWz?aN8C&x13VrAa=1z_@?}%L?QI;%P(p9Ie8(h6>
z$RlB5B^DtV{LUy?A@JhjVvjB4eygx13eBXwNFng#%NO{W6B|v=Q1F-6rUzV-Ah=cY
zZv_Z4Q$jt{VviJpYPS<`qQN8(2ujK%;%%%7KbWMW9|D_;;yHLMI56vn5GfsTx^))H
zYUBs&K^q1vf<E>}tnK7^8=ehkoW*k3h%=cK^@t+oVp)u;;93<|sa>&P52IaM*BTm_
zmpCt6<tAi3j5p;|UP}IIqdlny*Ma2_s>^gh7D|hc$0wq@NX%&|;zt){%&5&cvFUF!
zDrB6OB`q8vT6=396OSieFbZyNauXxMaSV=Bp!t6E5)Y^Qc1rR|`3BW0j=Rv@+f&ce
z`Z&hk-qYlh=H}`~Cl_~nWv`J}43Xq5e58=}^Yk`%Ln<jYdH1Q?^OVa$6gfWmmd5tD
zL87&jxRw<6C(cok`gQ{8-6uoj@vn<NEfRIKV%_iR(_T_eo9}SpvIe4Z5PnX#_aEgq
zYpF7PQuid9Kdn)Pop<$+JvGM3q_V(Ga|EF2s_ny=p3pReU|Wswi$(ESa3b$0q+^9$
zl#XGV2GTSHr8$kXi^{XJmcSd!cL%6B@dmN69MS-y3afvkb&2b$eh8c9pF}RCXbQk)
zD8~w$PFNO=N|{46Z7eb*p$t}Y+CpFDQw5|c(E#MpZD@p}azOhI|MMcy+m*NJUigQZ
z2Q{99I(ce!)ffI@oj1(08VLI~I`>-@lF2r?@;D>H;PQkMj#71f*du)WPK%j0WjQc#
z^!I<c0R8?D0x<8nh+w>@a|+_$r<47!bS5dpW-=p(oWEeCoI}84OM_Q6XHuT#t7_cr
zoIs#eK}6Y6ExkT1hxiEdkYoL3W<p}Cg(_7#w+D++mmX+?Cmjs>>;b`~(=xePo4XPV
z1FjlhLymB64f&=DlY5EuD?E}*N3G&Bq#J8clj_T|yM@YZigf5*<7|3FWC}GwL<ij`
z5g8jJTfBw4_91(i<4s}h$WPeq71|<P?c9xxYGC41A=Cyxs&tr4a#G|E<b{N%XoDuL
zJFfCGOK(RzaRi1lIhdo{U0y8%Yb_uJ$lTv%9qdsyAgFC55ThTvm5iuY7GyI+#_1p&
zi#h^RaHvSEhub=Gwabs-Ap_7JxfSDLNxX_x?bGWYwuvzu-{5K4>mehARG;A}T%N(n
z@C5)clG08Ac|$VHh=t@oa#3TFelH`tIGsSmUI$4*|42dQW4YAq21^zvBmXWc3iV~3
zET@l*><4RLn}Bm@N3&}kNyKjXCKYj&?rq;Qf;GXh4E<QI)z#cS`{dXGi_|c!dn_co
ztssN7=DPY-eUXUTxTVaF5=U+-d$)Rn!A!8)xPwd(6Ry@L7nT7d_JJ0FKWLccKo$ol
z-|?+QLZ4#7*sAuUFu$u=PgqCt&iJh*p9=Z9ot{U_uay(y&!5;R1eRtU#ZPpoM8xO}
zk`4|*(0f@-7b5OFEG*;b1UwJQeo9ecP|kEZ_qXywSrRgZI=>?QJxgd#FEqCx0Dv;&
zzt0lKpDaZu8#opbqlcW|X(6A{g%!r2HQCI{f5*zS<9u>fz(`i_2e5g(y?`oOwUG^f
zEX4PkeClGszj|uPhq9u?z%m2r1&DPG$j<rL!QJmXT{s{G%(zwAFiC25ZOC^&U8)Jf
zJyh@xurosz(i)fExCu*Z5a5-;_Vr0N%s}%f+lwxda>z)2NM*kcGtSBjxI|$@glg><
zV@If6Oe|9b!@Dsh)lq6%`f+q$WSqXRTD5cq7|s9{3=SPc7E|9xd`WE3@x=!Flz>HI
zX#cyFF)y(o`S#G`LL)GP<9hDc(bUhf{j{-M*G`Rgn(hu9tfe^EIM4A+;7ZriGC0U7
z6b)7EcTbX_%c*8%;*9CN`?P)*CX&kqvA=*cdJ)M)!F4C2^-|o*GunLPSaDi_n=OaR
z(|8XU%T2|}Zcw)Shk;4W3;mEKK`E;bZqxiV95Nos#Af~$$V@@sd@hm5+DxiA_Q{?|
z;;~S@;d}7Hl*FFnva#w{oD!NsHiwYHJL0^+%&SSf4noNdrRzcJe<I^Qk(6U4IDD?+
z0H^XBT8CS5{PSk1pY;A0b3Eb?2;HBA`q(MYE&A}72~oOR?ofQcy`kAJVbSUd(oQuD
zm~VBd8!#G-MK`6b4tZeZD@b|A^3HxwZ;Wr{i$;DF_?o@{$VUAJ_<LCPR0n<~y@!Po
z?B9ol^RKX|DmbnZBX`_s5ub5{3_Ve-s1#Vw6Vhs^WaNYkG^@ayfwU>U`GPoVR@xQa
znocsGccgnOumAWJkKfJvrKEs=lm=whxKiF|+DPfC7Ed-SwIrDgx9pI}>ALw<b;8<c
z4X`PL%v@6tbT=ErvH+h~Jn96BMoXZ};45uExoR%b99|?vdFj*Ns2;)y%l9ONyXamK
z0A+`W8)YO;A2kztv6e?EbzHBJk9kLe`8{I&Vyz>uic#&r3ZkJcOh$hf;(~*6V<loA
zWu)fo6MLVMobKVS$#pEZKiE8yV49}5Y*3+`QGteA0xHACjK5|zk!T-V9gSBVDg*`7
z=Ck30x+CI5;j6D`b|WT+vnq-eh6?&p#=%PFjgZD7t19lB$VZ)2Oe<5gWd&A4+>LN!
zZ8W6wZJP>+4(pw|{S}4b7?s1|*3N;dW-Dm8%LBsgSwhl_eh8!A&tkEY%+F$I9(8l%
zpYBQQYoo}>+yauVKFFT9@X*|H7gOto2rgddAZ&>QMlT^y5ES?;75E-d8NNaMeJVR!
z@N7T)7iTzJ|2V_Zi!ETr{`0(#Td$pRnF~u?a>nOaGH+Pwb(e~W1Cd>>Xn6C}>jS%K
zo5Cx;{WW|0DWBE%v5L-WGML^wk(B>3t~Uc=a>O#TV51Y$2yItdA~Q;}-Gt_Gko;qY
zZ#v<(`#1=*k?BCmk}~Cr>~A%z=v5^yeR@9+bFv~cXxGs7w3-8_tMJsd7%$p~s%@6?
z3Qb7QoPYB(aoJ69wPkP|QKM89$TAsWTF_0~Wh8%}JQ+lxSDI$asq)>OC|Mixm-UF#
zT8LR1;yWNJsT)z<#hL3c!CE8rgQha$S<^V85~9~>Wk_PwwGOfKqG(epWmKSuSDT$Y
zds4Qnkd7ycF+GWX;TE6ZOSDy~sQJ{87_s0Vi+rXb1@ntymmX(B;OF_^<3Zgb(N<UF
z(90E62iZ679u?sp?rtRQo^{k5hG2gEh_Y1ig%udHNq=(+XQptbgw5#;@(!|A?(I-d
zwlj*I<1geU*y6)rm?zl|tmoSoXN-}b+AZ2vJ}F{kD?kWw7Zh5^jf+K7=~i2@cM4|a
zwka~OPcHd|6kg1&;i*mffTb<su`(eCg^uBy4#jzY!S)}bC#J+^bwox(OsD7*7qf(5
zxroydlXtPyC+OmV04){f1;fEUK?j6rWB9dNKsVF!L-B|2y>B_%@EMz~oGYv@L02>?
zc@EaJs^}*&S})DL6YMJi4PZ<GwgtXh(_;Vg0VPCOo!Vz?zW=beJ94xAmEv1!s>eA~
zu3aPLP3D^rxzp+7S?#rAklqkW=ewS*`^E3dxTo>Dis#^Hj`?8o!NBsC=<f*yONTqK
z`!5pu*ZoD4Q-BHme<Go5|4b-dIYghfOovERQx3)Z8`Z=EvbG2;ELnj_rJEb^pk1p)
zPNT?nr`CvG4yyk-p6{7;s#Ppaaai)CZMGoGj@bK{#5F_J%KZxGxe(E^mdx|?ZRTLD
zT;q@niBeu}GQ+h-5y2HPXT!qs4dm|;WgJp6t9kE-zyBBg@UL4zM63Oee#jDHaGq)>
z6<(n6u}ob<;S=TUq9lv)zxv^df!uh1j>&pE7g5|s=O`gTw|2fpfK7rac*RVUvVDM&
z-`P1Qw$7l&_^0Z;F8{9Wr%O3O+bc^xKq!AeJ;YfSo=5Ov1=z5C0hF@fj5S&7RgFzJ
z0sL=X%Hf=^>;@>qUwY7bCwxN0xT4E8WwfARMij^)Kc4wKG@}LeTNuI-!MzZJDFhH5
zo;iohq)Y7?fl7WdDV!Rr{OQ>Jpo_(gpzIQ~Hc0vdPhG4RspBbs&<ff9;CZS(PW9LN
z08;{~JSy4n#*ROF({Z~5TJx}Vvnh^bt?`=SH|$!(pEeIq!Mx52^e25ijM_8gdZloW
z{+O)E=%fDIF{!Q7WUMImP=qOxo?}Q=u%Sp>>;wEp*gJJaD+-D+0f)if?frlH;l;HT
z0%v8nso;~8*{5RXNE0^>rusAtoiXGhEmGICoAx0WP4kCvMF*BBhZ^yr{*RFBJzNgD
z`SeHm7dkfe14Hr)^vjA!)3Bop6HL#&$Ir8%X#5+xg-uURJrdkPKQEd7KFOFFr#1gY
zr)2%>-`@Sb4hi$v1`nTb$7I;mFP&_C2a^~AP}t8e`FApG2Rs@aMyozv|Jo}4@-S<q
zruS(?qJJ5@6%9(Kaa`N5Y2}XvJmZqdNzd#TSu!Y03DHieJzDq~KZ_+L$;!d##^<Sy
zI9RTb(%Fdh1-mzDa6s%J#8(WpG#_$PcyE-I+n;dfuf<hJNcBc->=;X^Sh#i98;I$7
zCpqb&m4`5mRG?93A0$`IUe$3kpkAL$a1z$fdT(6iMiBPRHx*M|PArBpR$YPf;5Iof
zS_p*^t&Z4;cr-l^Bhu;G%avm?OewHxM!qiC(sm>a*$!E~`IouqP!7RS#vjXfPz(R$
z!*J0V{=vHfGn~;WHAJ8;1w%-FPoKWN_7iXU<3V!`m$NTb-`(9g65`u7G^HS7!J=;$
zDtyYOUHAP~F*KBnmq0eLOS_aLDnh~`=>?HNqL))2melocyOJRDj{<Sr(9g_%UE92+
zp<}IHS#7EPf`augI~~LcMXnQwnCCXrC>`Z%>8h24H)~eDZMEv69h0}^c!~$NhMAE2
zcwOQXY2E?Yo@4aHkg@4nVHX2qsHV>>SCA~-X*weE+?ManE;=2dug_{g6C_Km%L(=y
z*JgaTJc#kvx*nz$cn^e0(BFL_2N<SNMJdQ;<TsEklB#rJED5?|QSoz-rli~uNQ&KU
zWDuWQWwuhf7Z;h}x?B@M`_kSyApP%)Kwo!WcXPQ;v>(;FCi9KT)mh=Z!w(k>t44A^
zZ?qmy%v7^IOI6E%@KY~P%zx-k<Hxw>@p?^>c?0`<LIuTSqHO=yos#vhzfb-@Oz6|K
z%~OYRx{xntQ&XwFdX+*PpL3kVO4Oc4o5Iw&(P%A8eK5JbqV3Na@RveRfnuY5r~x5y
znexV@JPa7x;uFhehWZ3fad~Yiy?Hg}b>#94pAV5SY6*8i8OsAPXv+xYx^C=a_X3ET
z=o*q(^eY^V$x<+-9Pzdf1y#HOGv0>ff*nMWv!o)EXLdUzeA#zwZ{>#~`UZL*$<CvE
z4+nUa;tExsLJV#r@4KtBFwM0_b5Fh&%r_@hSO*X$)ahR5YO4K`C9NdMeYwjYu}CLo
zN)xYPyD0$ZoU0F6P&}R4QIUUmB_#1wCZO<&+iWoZc&F`%eVje`eZB7{8+k*hQ;7RH
zk}U0>JIwSBM2=ZIumNHxR1O6(;rB;AkzKFYDso)%X^Cwi-G3$2;ZH(4{zpPH|4Qhn
zDUsvS>#ZTO%nXkeRODUbVVGappM>Jv)J{Gg{7{3racx#wbK-5eTV`k808qLNjKTGN
zGqVI?@fvFvjpDLQLEec?=L&-v7=tzKVQC0SvmUb}rW9mrhTY5p4N>dr0EvaSgarge
z!*;H+E}CP0rs7P~`jbh~_e|pTVgKoo((gS|QWY;Od=s6Y8{#|$9k5UNMGw-f@Z<k>
zKnwp7P@`|1DOJa{*Gq#%yyuG5svX|SHF~x`16jOn4_$vhGbX-5{XL+oVT-l@RSEs;
z_eg;O{eK~#*m(1LfSkqO@6nE*Lp6<RUH_9#i1&1Uc+c#zusnF_W;czOXAyvzi)NJ-
z8?Vg}kdui{JRlEZI`$tHCzZ41WO|R;zwPH?D@(rM?#a)|OvJwRyfm2`_!mzKQqFsO
z+9n^32f3`NHef~#tBK_X9eAc+3;jKzm|>b9|Eq-l6a4?@i;e%SCeHwD^8Y`Yyu!Xd
z|HRsR32m|K?7$LFaGO}_-WFisEg-V>ESam2^1aj9IHOBe7P5MpLnw9qRI31Xg<wo-
zHP$X1#b=3$95gsa*XLzs3B&T5<{gw~JXS?aiO=>SEPP-L(sY~6tP(ImW6TY)iuZfS
zxCFqwsJ)f?UKGuK!gZnH<^0DQihYIq-u5|>(ca_f1iSvP%i)0mYplO6hgse)huI*)
z{<e5JayuGI@uTw5YwD@6$=BsUb5FS1(feBsEmrk?uc2}k3-2|Q_D>CE_)j&oWZ1>q
z;lF6||3Lr0T@EMx6Kt~06UHr(76@oWA*pRDCtjcIQIO^w(K=LQa|H$3i<y1z-@#_^
zFR*b8j_=Ljcn6!r0wW=;{~2sX$v>v~rk}O`2e8q{`X|_A`~e#SbiBX7=EFPKbaT6W
z(B(WdP7Bk+=bs$q$h^8~wv6VL2Cpoe=}nbbl4Z}dEUsa@at0q&yFOGf`~x-ylbv$S
zsaOj!>3@OE*AdlVgd@YcNC)JNFNt+o4s<s`=c!ez=(0?@))`ga6m3SOjN`JTr6sv*
zZ$HM=<4J|^`w0o3oWrs_Dd!8+4Q@WtVbs3i6W3}HkQb%KC7S!V>UBCE=PrMI9fETb
zcQ_Y1B<Nm3i2+3&2=@%7IAPct79CoXL%B&fbm29Ldif-YdY5od4|8UaSma4=CFOHx
zH_&13!xKjiA4J{SyS=qT*=vRL!&_&y_s`FyvS@iTVSjjvOO2*vgf3@VH=Rwd`m(pQ
z$^HQwhkc2i@;0`ToCio|7D84f<Q;@`p1wGeD|nXII2~bmW^=>$bh65Yg@?R%`fZZ`
zkB+whifiq*MR9j`*FbQmacf+I1$PSx7F>h7ySqCC3+_(v;ND2^;BuSnbMO2Aed<-g
zf};3r>X>7Gy{?ehN5ULjAWCo$GNBGp%#3Q)AqY&W&S$wLLb-qOZ^|-Hae^!0_uvZn
z2o_A#fB`9OQvjI0(Xu*ymF)>pKmQDbG^$o>u|TK;ICVQELG>?zacI_m{D5$}txF2<
zbP#BA?prTiN{n)Tmwc@0R;cXg;Pzhyah(Q;6<iR@-hvC_XjpJT+zBp-|3wfNEH0nE
zmxO?b*oXZ8>zi`??IvV-uhj4I#P2@(1U28dHvrGq>8$PCMs~SBfm?+)t!*D{Ms(Fi
z%591*Uwqt;5+&ONF@~M4r>m%4;iw2H5c#0|KfmsY_&)Dtyt=(!%ubQ}Jf13g$gX=`
zy?pQTzS}z3czIdNczyJ(er@o%nkbn%^LgA_V<q?Td<Fm6<MnW&%j<Qc^Z6ho=JoD+
z_VG5SYZ>+F=CGYt#QWvx(Qv)<`TBd#`s>5#>|Wp5neR#*xro=(pS6SMsTg11$HUv0
zvyJETy?jGo_v83NugBx|9AD2XyDe67^16$yA#&fBmB*L9jhE-e+b(Y(p3948)-&O=
zQ{RWfgAI`%_b)5tKI?TQ8&?xUw<12b`-Zb!tNI2%+#jF68~%Fvp0n|KHG8<x<^I6v
z`+UAduI#HI;&n^sp5KXk`X_?;^>~L@q~rBst?Tvj-q-i;;O^z1>-E~b>(jt2t?%Rc
zSPARv<3x>!$l4h1#?!;8NY~S=i0{kRmGZ`qGS+IApZU%M8J}MsUS<!Dr*gWweIIX?
zb3~pVUbAHnwbZAiSGA~5+0;b59B%$>pG-x}9;s=_CU<s!d#Z?gVvGOr<cechg%gr=
z8Q-2?Zn!OfKQDJ*lC&MaKO#?3)|p=V!nI|9nfy?Z^iUfQp5*G!_I^u?$Kez(LBvDL
zadl=}4PVM&VIKM9X<0tTK7F6{W*_{c&56~$EJ@_S*5jylc_-y{MqM3L9<v_*eJbWG
zMdpX^?fu&AhR@Ua)MsHIW8a78wOJ;X=P`Sa&liVXFUPaKFHom&IqL$i7vAdLk2fOO
zDBeYlat=D-nUg~f!-w9PDE!}I5~vT#Gr1@yCoD@uCqX-j!)ab5Z6Xa*IdJ?DAqjND
zI^Lh=hnKy+GT^!9WcB5I_w>DMQ0Mb4`C`c20!}Z)FWpKDP7k!CdO0a6iS1BW@$wQ?
zDD22ueFMZsI!=tBZA`@bp!PwW1~%deR!h5AYbhl$y|iv2uLzx%$Bd9^i<fDO5~f3$
zrZoD-r`(*H8rI85%T0bEMd*BPp{GU8apj@kD9I`D_RFEg%Qc7!hIdVzImSoG$hy_(
z>GmVxfmEi)#5@Lc(V1Ndu)d;BzM@yNO><u|JfY-Vi@zPu$}4vMu>@4z#!wD$!Eaz6
zm1(hUOxs?-frJtAbF+<8^!Q5WxCnE4+!UkVpSQD=!I;yEk8T7<Aw&yIlCIg7t0QA9
z^^z}bJM-T!;AMBKoeQ=IPgML^nPmk{CI0%&N)-N^aARoosi-yk;)mshOp70c#s_c4
zdtwx_xfB}3Xy4K%#16(*-tkR^g;-8`|CwPVpU9pkT1Lc;;cj7~0ypfuYB}EydEbt)
zbHUR0LKns4OIbA=pLdG3t%eXJ!ltnK9fFQC5+7DjH-&_`6o{zrB&!mfIQ0y8ah{9%
zL+VPyY6lUBu@HWw;H-B0m0u1u3;1?0G$+wFJ0A<StdF=A#cWEL%iN%pa3FMMZH?+<
zkts=?m(^28R0&4gN%<$h^GYwh<E+P(YOa3Dt9s6>ni9zt|L7?$-_==>cb`tK8;JZc
zh}z_CTVt8pwfddtjM&#}hO3L2&L+(uxMBV>;C(w?9`SdqynXh?;6Q~zJy(i5=wINk
zOc7a}=|OCj%O8S<Id~u3jir4pPMnBe?9ouahF$Thc7|(NRgbs_x&-UT8@R1{4My1c
zdN7QGkhz6TccO>1o$D&x=;n;@$L}kC)WP~RtPy*7D3ik>+$41G&Wpq+K(@L6&e`N&
zza|!_Rl&jUeMAt3ICbZT?(8Bj<6VQ;fS)0J4riB6r6L>mOTp!@o!&Dabc*C2T{@Sk
z&-G6^W4#l=*o_@dBH|poQNAYG3oh{DiQ98b@USar`(jA$w;6Fo$m;IsWeR^sJ^uTO
zz$Cm;#PpHKyw+D1i_EWju3K1jvhS=4^|wR+h(<y%*|A?hQh<0bk>(L*9THxhnuhV+
z$}gF7e+NxL2v?F%Z7p(@G2M3@5B=Af?EzcA0>0nGC)4`=D2R+A$Ubv@@as>4<EqAi
z!Pjh6iy0q~7-X5C>iK@*?||5u*SAJBID{Z9MU+!Dh~ME(q659kd`<?zo(&ns1X~m&
zRXtbWSZA=}A9f;(95;_>RXD=RT#8~Xc?1QRx<~bp0DNL09KyY>&gyRP57RdqiO^$k
z6HTtS7`Or@5fZ+RE83mMMrPWjQ(d>BF&Hue*(<$^$Sx|3E|3*=>pQ2Rvwy2&M01Dp
zGsEda*6>eLNXg>J^vY+m?wqAW^X>d0F}dz2<rijRFApBLjv^U%{JN#YqbJ&+1g)!u
zWP)6wUnX<<PWu!Jd)X(&Jvr!;2EL|W2o85vBK?$~puPzVJcomkB>WLFyom|CnK33V
zuY0O$ogBwk2lL>au$#e1wHynz&T<+G+hWMyOtAMs^EGqSzPQZ3{)j1pQ@4DB1Zrw|
zW*_b&@v|>@8&#6=ZyX~z=x)S<H$l+oTPcZ!)q(K5wuyC^5<7|>+D=62#vRZB+DJbm
zXt3S5>H@gg*;Fm?4IIz>H|63;LU8sNb%fzMFsxBXOIeD>%X<9f0$amKV_o_9x_`Lz
zWVGB`%rpe`^mRlLHlfwej1*5kbMi!bit@^fjT`SV{{dRU%3B&yF#%%uhjoH1<D)!c
zJAR6t#-H(U8G0lp!nNzuqVsXHqVqMfiplUZkCX?0V?i-UGz+E&(WE6wZSMSricf>C
z3g+fKm>IuQay80VsVjsJaKa~3Ku6=Il*JOKXUaB#?C3JqE+C!p7ncsj7VIYfyy6eL
z<xOLF#TG?i{f_)|v+9-n_UThSQ7}J6dTRsRjy9JQ*-WHi0BI^v-aFf0<p`=#f;1F%
zpK0?F;B<u>u_0Qj@l?EjPa0iyHG2YN8`B@eqzm4mJQ|D)@6vE}oN-H+Xf??F18h!_
zVPv9RLvAGcj{c5j(o%Z;#NIJiHEw%q5BEH{Xo%ROwyW)4htOYj_tGYN3EIb{0KUVb
zf$wJr$;N0Bfoxw+O4KKu%okUB`iyckg(`hfA}5OHTCRP-PXc9c!H^@})|e*uuc(O}
z2SqQC=hD?(CfJz<ZW4Se#G8aXY~|i?89XJve3u|p-#N>b4A`yb_v2Zvw9@I92lm*+
ztDdK)kk8|=*PQTeSjU!=1vzyzGyY-Eo+Gm*WC)MWdU)KV<>FY5R(|-)_6YKqQ=t<F
zmru%HuQ<6`m3eIpWP9|#;=+}{e;VFAueV4JB0KT3*k{9!Fg=+Wms=R04pc(*q$n&y
zNrww5kEQ!<BAy0V-1JMR=?+~yrtvj_-;IdkH>)h=8-*OZcWUR5D2^uPbcQ(PQ>{c}
zwr}<G*cVMT`7`c5$EkTI5VEYj92CMT#FlMP2N?LufO0{6jMU;aY7goWPTPi)zRr!c
zQaXWTHI0MkfGJ62d)cj#1Y%{!e6piDu<l)R*w#LeAdQ_ODVHO$i}4zi$e7H7(sH}J
zn2IdkTs+=X!P)*ijC(Gp20i0no_w(p8cCyGm#80G!_`J1dygxU9G^6WqBQ?2P}QMU
zN3cR%`Kzd)69bb&t<W!>kza(Vr7Ta>9^IUT<!@&9bvvA8RNY(JHm*^|ChJE=i;KY~
z$45gFMg!Cu=<0EX)*AcqQa9xOHKEv#`%qMAwkWS34=_jEes@4)C+!D7WslSkZmPU)
zp?%@j?@&E{pfEj-x9zWTTF+g6*p^(|zQf8h!OmdQUim@YN4~+F8)Z&GT*s5_-pEcC
z=xo%R5Wfgb>DuO&md7>F*T}TV=!;?x5_K@f#aWqRc|xYM$=R6udL=JiuGzyH2M%c)
z{!xTQ<An|IiFM4mk>;`C1Ebpes)H>tE=Ilcv>Ur*2-cd0claoT??kB5jIbG*26!KE
zivSVS53yPtz3EHvWd3#NfSOU@#yj`RA4uPZRurZW_;<|e>2S{cB$Kl~;IBXYvLFkK
zEa3q=)D;yg_dIb%97+=8In^hY%s*dXgFD(rLMjz@9|hylpFDDg;q|}fD3T{f!c?XQ
zU2s!lD%6L6FO3rXg#aViD0a!*_yy(HctPxkdKoOK=6aRGR$o6(h!Q0tLM8o~a2S&5
z%3oc$fJ1WfO$E@<3z<=t56`nUhuU{XoyBmDW`><?q1;$=$RK9u`%v6^@H`GV$KCxe
z%gMA=C=Km2f=0tC;@fkTOhmCp5|5sdyA7x*XE`p2oEVbg851}7m%?RccG4&*=d(>^
zsAQg&KA5QANMeUMhVM<nn6H3lxbkL%j7AC|&hbo>v@gRdk6VB{CIeRX;(eVA@>ch3
zNvA93Z|M`PgveT%@r@QVK1Hj@yv?e0Cr&cN{up2tpg7iR6OI8!3A&sGxh@*hlx|wo
zxA8ajAQ9SL50LnfKl5^JXyjK$?dF^DDv6eIDb6_?jR0?K?!MJpRAz=Pz2|XrxQUJw
zO@&U^*6cyuWb@==C)4_Bv@JW9jDDRK>lwU}bkCp<xkyi#&Pv1YP`K~T|4sKmA${4-
zyJz8cqnH~NcvSAT)Ls`A>{NR?j3CKJ5on%^U5AnE9>|ux;cT>B7Jvr7wC>Ii!Ghh$
z)XfnDw?d)|oyq*AxqARg3;CaH8xGmT1kD~gUp-#%)gfCMo-Q-e<^kmo%}XvC;iyo@
zA<~2s4lz?W9G}jnoqq&uHC~I(rVxaQf1F=&Qs0Z%LZf3$@qp<Di;Pt00lPO0Il=+@
zFWfI^)CLO1jol+qmdJX{Uz)lnpw1vM`Uq62E*nsKbx=N?s#dv$&+nBsopaUFXC440
zl;lv*BOy}QiZuyPztndxL*XOqz5mkC?FrG(2G?IoqE@CIIVxnLF=2v}%0P04cvcst
zRyaT@0~<`w4k6Dnf|@bK+7ZZY^4K(2mDb|T0{ac^oN7A0pg(aJ(4rI6ldv2`08pky
z&){e@=SLq_x!0N4tkKQzG-Dv^1G^8d`8(Y29=T?1QglOlHM&eq`gOQyE*3%!|2{XH
z1b3U!$83$m%VGJ<k(Iqfh=GFNWC+#qK`WFcC=3R-67=`jo)YjjYgqnheD|TsClFIQ
z5Q|Vs{9zKUcCPtwM|0d;ja^Z{4;Sd`zfXOG{%CyZx1HF>BB`0_7_;54Y?V@wPh~B@
zZ_7dA(r-@9v6;E-S+LOhu6MYqp^(7Z8&2<QMg5<AVDE)q+Qg)NtD*J-k!{;Uhb5^g
zX>9goLw1kg_g|~jLJnm=&=k0WtdNA7XY}}ZjfUA*fJcy!*?3|7#I}LfBi}Iz9)~g(
zed)gTut>3)M(}5Rbc|0YIbf<B2Wo#_Nu~UQaJuX4RBazTgU+DFKg?YT+#{0;zx8zH
zmlJq`1tA`w)=7|I7DA+;bL)+>^ZqYg$7WqNEcHB>P6*Xwk4fuC-%E7xEgdijI(!`x
z<%_|q22q8~{LEthU&?kaA$ez4cbe$wOz(5%%zq>oe>T~o;PUAy{bR4XJ)$z+zbp}Q
z&hK19G#?XLIY`EB8&LtC?x*+-<_#>Pd?gfgwG>QsP!Rw(`O?fk0d^9vMSIi6KLd6h
znqrVW7l2!<9Gz6sTL74^1mq#=>#_1FhV~IKb_Oku`F!z{mlY;!b)WRu-EW1V<DLqD
z%~*UdJsum@FO6bQNr|2zpz*T+0i*_N0p}1a)TYtbhLa9##N)<ryl+N>EoXW9^aGqA
zIywBtBuiRAxhyqKkD06CzZ)u>a0(f@JI<T1sLQk;euYvR@2{3kuP0FD%HyiM%W^5}
zEs(D>ne#_{=DLZLPyF<xs~xUk%&7M7a}z*^YxpnAkx0i-4IBdX#SX;*)9+P;;+VsF
zb4IVYgIjU?R>SikmGJmJZkqU4z}n-vq5Bc^srb8LC>Kh0$mpAR7eixPm$mN0(&1bj
zZK&W_#Mb!9FHaFS8`_p5H?e*QrT#s&B+M$ty7ZzRq^pUaN@?j}7evd1%RDs?X`F{J
zEC&mE&&-5NrV|!4TWy3GWU3I3ii{kHU!)U5u!ME?)5G!KzMKm;mk)Iea8MDl!DMav
zYDA?hb$V78g&b2F0<}k_g9f1|$F&B*V!O;OLM7(vq5638s_=U(mS8q!G(IAxvL8q!
zt7b~f{TeFBf3NLdNJYVdt8y7OP}ED!;_%=NPiLb%E$bC8lUClmvVDR(;eg)?$!u!w
zC{-*O2X#5u+@BNiQMQepQ*viHbZhyCyi#yQ1r8)_c`cGsQ;<y9c3~)*f>lvnr)W{w
zS)XXj2{wm*2c+(pt;y~}YclP37ILcwD!g3fD^j7RAmr{b2_^3Rrc$H~1h`fdkOr+?
zs%cjFHAtgFVbLFvo^y!oT%$o%KECcwcJR395{i4u7M_}W%KbpS@Sd<Hr489kSkW!F
zfkQ%Gj{2Lp!b?!e4|CDpcVZAGh!xjB?GEAPq(VxEKvlmjZ+qx1M?CD!O9E(J!=s<t
zgyhuK3Mb(t^QH>}?^HuaIW_w<&AwzFUIr}cp6zB|0N@KNv79NA>*bQ_IShcmyCvI1
zY5{`M0f_}fayT|__Yg)=JWZ46W5ZQrItp`bfT_tywlWREu1QUc!qwhE6hsbsZP;%l
z81-_cssrMhW#XEHpPSGW3U%mQ*gedKlglB$(AWH7+T?(fIaUr}3`s*$mQAg5Ul6ox
zxDTqb)I)aM%h@<j&Q!Gf5<W~y=uZHzQH@oh=@9v0Z&W+-L~h)s+&uRebYFsmmPs~d
zyMvUTq_uM{gNrFSo8w4u<}jq@yyc325Q}n=Nsk=3|6X2b^6l*BkLwD5f_*;>O>s1A
zWaA<v<DX*!Y<YX4k611w**{PN<@cDn&3Q3$TeZnY+U%zH7WTf`*&j2hZjTnOLt)-*
z5wfz>Aqq_uTvwP8Y)p@YY9oa2R1l?Vh@Z*L)m}T<Ee4PyEMB-+52om*+;ZX8$KU;`
zn(}iJ3onv<o|5HXPa<$16dw*oiGKg-Mo^1!00REH7ORnJp-*nUkAn=|*@!9uI^!|E
zzJjk)BTe7nXN!KUi=vHwwqbl6P3PC+hP4N^_@5unca3PJ-?df~bMSSepX@S0murO;
z&G9#vdyIJHLSrk@Mt4e5%4|$JCsX1_48rXm!ZyaH3;`#c9D5}v#u&ybt)&L_-(exJ
ztLf}7^#|LvNlR1oLPk{pj_Cn>R`T;L9AxmWwBcNt#LFoRGqtGzjOv)0B91kP`SN(`
z?<^NhP6HMVe}a5G(=RF9X{F<j*@y@`&(5Hws>=O3KZw;iFMNMD|9y8l7foR|eOWb6
zRDB_eQU#?y`L~~+d<$mMkPFRmha(5(B)MtBMG+NcMO+_N*p|(5Yd4RY&&CE*7eVk0
z8c-h>N6NCSLamHx=W*jh>CEs90QVhN2d4>z9@)VtR;s<90AWPTsz8l`!|@YeMiuMz
z%I$Y{^pdc+-O8`_{pWzmBtxn`2>9KqBj&6xXdgbh@4gr2Xn@9U&7M-r6QFKA3LI0l
zNh)GpD|KP%<%o9)t696V<LT6(QJB}m`9vEmoDCLmBRWn^IaI!8kjoT*BbjQ1_i?u*
z%b1jR(6Sa_nhYW4J-cRcuhiuEuTcUA3lmG4x#I2*<|IJGCKoa)!|JgJ|1tJC$WIjl
z$aGH#;7bcD+xW&>#=*(Kzl1-1F#_P(FqK5u$p*iF995&+>7ZS*@hVfvw#l?Zpp(|W
zDm9`W6oyZBy@AHk!i{YyZ}959N@>0X>XA%T*V9%C2cQRzLE89T37kb$$$NeB3U3q!
zi^17N{n9=F%;&sgnqq=5v4g(Ugq=^<UM~k+;&p`xu+?>0Np>IkZ>bTgqvBd?kmxUY
z40}#|28oste~@wRR@aRujYaqdpQ&7*3;#G48PxlMpt8@dciI8}GY(4DCtcXWYNXM`
zhPe;!g)FDzq^VXvIodOM1)NsnGVxQ25q{*sQ<QkdYFoGFKXxcW5s#H`_ws(BkyAAo
zrE^o_en{ZX&z$Hsa<MK05;*CNefj|Bil{bOC=uJ3f&=-x0SRP^J7;U@U3m#IeX?^k
zqMDG`Q9O-Pb+gc8P^}wuu2Lz8|1P*x6M@VM8{I$so@3XaB+JsXR)fYNiMg<<AIQ`h
zL%dQ-)0FEWN>>5Jp#$r#$DHtiEG-hApEPxNwxhZUiuQ}%hkad3O9&-h*|mKpqLKUS
z@5Gxr`t)ITgM=e-0*XRvNPKD@!p9&4*NUS2)hdN|FIqI&w3XiWHsA2+(`GV-4KN-B
za&zZvBVutIe--39j7q}OWh+gy1^@Dn!ookOMd3!Y%4{}VIW&RbjSm)Zyvh{CvGy6<
z*KyFpSP$V~-l`m*#vS`5hfn>QPKORSb`h1Rpj->*22YmfFm($4Ad!uAI~f7XjKm)s
zoO(AkC)f_7xPxFafcLl#qZE4PuCT%hq{uo5(ib~9J+VGG1iON5w+Kv_<h3LuC}I=*
zoQD*u5=Q0$aM;_%WDlOrf<tesm#`;A;-xp4&0HhRD+F<@f_<Po<FyD>-u7}&|Ac&I
zojc2K^#qgTs}NW7-~^}dsd-Yu!z0CC^F-n2nuv~a8`?BI=eU(@k8S1x-2f{x=XrEu
z5km)l@&-mx_XhF%#69%(`n`5doztJ4)K1K!ICxCl5-%Pg6|2y!Z2suvZM7<Y^yK1J
zYCh_gJX$V`hM|WQ4o**GV~Iy-2__g{<hUV@i$ylhzqyB-vUo&J?`jD=n|_DV2~EsN
zveL4M4zzX=m8+OiLuHk0ZjzDPku?SjT@HEd4jCbgEL*E!wf}5|X_Lqdr~NwDk*3fC
z1^fF{d(HSwN;+1rTDEd^Kk%I_pE0qTca@K*S_O2xu6MGvTlLZcnQRpGw11e!*zzCt
zUKRC)<bHzsW||A^-zoLCE|HjYUqyqLwTBJzBW<)bM|9q+4oah-avWRt#C;W2u9$j2
z#y7Qj6S6Qke1F~rRFNU1Wk0aZF+hzt6QNoaiuKEB0L0LR+AEhJ4GzTNxqdP@^3x-l
zjhE`=EC===Be**L40REGS7CfhEpOf=^KQq)K|kspHZqpb766SD9Aexd_3PoNCnGT}
zi&OYHGbWjv41YZk`TP&rxehr{8T=!pGIgG8AhOF8Tz9K`b9or;p7yRBgb)poFS`XP
z4!a#lv)l!n?Lx_?V7GTiWb6h^*0>QDk*tcp=kmB?T(NR%_OT?MIMfvF$ncX}@arFV
zr?aCva;M~CMCICc)&Vb_4)O_uBw(5UB&21g(lHZM9_u`-s<$c3Z49kbG*qd>!i-8E
zdSSErtG1W+cv+SBcHf_-fsP`U+j1fZS*$5ahGM725uQ$uPH^0lVy-QBE%&s~`!Ia5
z!7N~6G5!kGt^6YrosGf1j>Q#n`i7+{b3IsJwz8b2(gRhi8Sp>H)BTtiGWYOUpyqkV
zbRu0@oKZ)lb<Ge6Jr)k9b3xP}R3TH;?s*%}koZ|#X~@m3KbfGr;n;iD<~~3FU@8w|
zTN+X%0DNenrp5rh&4i23g8g@<BoLay$!EQp0Y8<IJ`S#C4i{KGnaw4iJQ*yAtwTvD
zY9V)UT;JY|j2t8$C3cFZ8b{H=UkRnWVsT^#;C+Tt({a)?;?w)I6F2Ji`-iQH)i%Di
zGM{e{eDCs0Q{Cl6i-WuON|f>{pM0L?j{G+$t@taf#b0-@)ipg)n$_rf(Q&9C(+M5d
zt(h+?ZrAKSMD1{Y*rS;iu1zlNtbiHuT0C~QiQVEWt(gX>Zgft+!#*C=@iencv6SiZ
zKYr(s(5&P&p=s@`3Ue@+?InP}u7hKmaEcUqAaFge7Tc44HzalLf4-zZ1j2H%iCAQ$
zzU%KiM|)p!QA8OQvGb{yxbIyC1vSQjpTL4>Gj4@xlnm)kl@w{}m;2c|n94vNh7(Di
zvs$r{KOImK$wiP8M;#;Agq9(E>$xRD=EdhEpWwm)d(IxFr-eqSt<!GO8%Bl85>rT*
zS&@NcmwtK+qV6ooV?;4}gSgi1aJa>E4OA=G8C`PFI~-Nbax1d~E;c_{r0v7;TL}(8
z#M#UzvW&$0#0oS!pWrjJH)XEY0TdbBkjs_)$843?jZrc@JI{ioscyp62GKpZ(VAN1
zehI&o%Yi$?rF@_zY0WuD&@*W3++-3a6Ogj}5NSWmls(U`^z~ywB<h+MQNz_J_j2hJ
zBM9T}$MGZeE6Nk0hvqce9f@c1^fWMAc%Eb{99t+JfXzXJ<5Dp2X&A2S0CVyNzqAt+
zr!Gf~-Kt9SQ^s;73U;f+HJ7G@t*F}Vr4?+SaaeBqvosW?LeN7p3A9bnB175S-1TZ^
z56P$Gn<&Gwk{RvsnEaK8(t*!$N$<rRM*Dq+;n;2@nl~bXr1xzcMh6q0Kl?nS{hU)2
z6;@90+rB{|@%H2X4lVKrazR|6Ud<+HhQU-c_}~tkCNb02DS@uA(=L&HATxCY(T9_H
zuHW9TM9wy|9#g7UNyl1|2*p#>*Ap(fwgJj@^Psi?CPcFykYemaUV;L=KyUz-A{)qb
zs!}%{S(;{YgppVF#F6uF!~~rly$p|zn1XkMqiVCHn#!Q^1g*Bp`K3Q+pap!SoO!;+
zcz$|WdGAaPih%^3=)iY-k3I#`NJ18-k?O^%<eZN^W1Prq^Fl3lrcvrV`M~qTz>#9+
zjs&731jxNpLOuZ~TUU6WQv~Mqyd=q4W0OFCMD|bc_kasiTeT@l>C}Gm>X={{vgfP4
z$KkA$shz|qMwcG-Ktc5Y)&RfqTNIKDOZ~I%sS8Wvn93I2=9p{XGQ5G~Iu-|jR<|^1
zobzc&s46U5I6Sdeb}ct-Z8MSJ27J?BH}t%*W$?IC&bZ3lG`z$F*|W_To{WJzhYoV<
zjF7JlO5PW|DWuBhI$RyP!-7ai!u33gObrUl&#KsmLA0anqp2oJ<GU~$H9_f1f*px2
zVQ*){cbl+=w#JHm&Gx6}Vum2QYelYw0%|()GYd--#BMG(_`w*$=dM*ekkulpj|Zjc
zod@Rd#L(5#5trCW#+@(LAo+^Idcj4XH=wy~9-KE|glal6Vy+G$Kw|-#d}1kDPgngC
zyP`1ZF8oqlhoMo0i#lb?6%*^&C1%%_$G%7%bD@s-GSVf7y`*?ti&R@I=HYH|v5AA1
zM&`%ZopZ4FO9&YxFb;QTqZZ@go6cG-sax$Q0<XR0mk_f>J#;%G&amlbUl{6BCUd=G
ztP!H=sJiq>U@RKIySaY|vkFnd7scL7LpIDA{r2tp)Ac7Xvz~q6Dls8vL7hzPUTvHY
zJBjsAsTZL3_jEW@lZiqiJ4N5EIefqgTB|B{Q}LE0VFF(dQ|oRZ{dFcOy^QPtBe6O_
z5PNyH*e27JJLy3Tcq1>SyRGxtbMwH5qMlr5hC14_Fj2S518nJ=A80f(KR8pfW;e&%
zDnqbd$|n;sx^2fP+>cPFT^GoBe&3dg{=iVAL8uabB4?p|ySzh9q(X!Rt&Wii=EH@~
zooX=HF)HV(<APSm7+Wp1aM)?)kK{Tp)&8Jf(9Q4d#QmDysiV6I7>MNG9uRM_{B40N
zSB>mv5_FL3njZ*7j`gaxdd0YHc!c@d()ZPB;6sw88ok`Rk$ULXUd~>ot?U*FWW_B{
zVhAba@$@A`@ZFJ<ARl}rpRX=JQ5?Jw9%HL$A+=8CCs+|!$}Lt{?=Zuz-~KtKti9yg
z7jvP<Z+6!Chn!;A*pAnRYBBJU!4!*L@`;}QdQaIyzb8!<?9S{1oCIbQHE4xyzc=<&
zc2ys+vRMCsyfVWV@{%e$aIoAm*eH6wpF#(Q4;}E@<juT$R2`&I0?CkP#lmhR(f|yw
z48Uzv!iVI8PqiPcdU#P8JsGp37)K3`RBzl?SMqSD;BMbE?)uA;tg;)mw40n#VcTEn
zal8)~q;yJdKS`y%lc>m$P5<og)yah_>(2OzGRe)e5HLx7Ivqai*u~!K2lKguSa5v_
zqKkd#ueGg^F+0<<Qbkn1!KAQjX!!SqEQOo=Dv@set7LclKl3;Jlf;`d!AQ#wW@DU;
zbUy7zUq3*<F9w6oL2UmID8O!j;wfHEd=6}@3KtW{BeTUwNbW2&yZji@EyCJhQ)!8a
zh1Wz<T#mwoqq!5_0hK0liFPD<tC~i#g&|*Je%IGV*eJ=0&mjd*5I4oQo#z(91qgYR
zlj?IKLyd8{M5~%pYs-y!8@&z!mC~;_LTcTtzZokfxr1W>_9fzmh+e%6kJ55rzM+E&
zjWuq1S!=A-0T2}5?I|gk?fTVBYOjinP`AxNG(dV!4$tjTur+q{(cKK+&HRfAzM10s
zwGk!yP3M?+|GPwSrDC&iR&Hp<ywDIB{t(y=$yg^cvFNKKfyVe0UCMX@58$mI%9#wQ
zUX>g7U2vc{6KT|LP|1z$ctqNd*ykC^C1}?6n!s(@k*^jO**oJM04{D<O0h}*>%N~V
zU}<zmP{3<uf-<}#!M2bR9)xE$r-b^Y`i6j7;l!W8p%@x@ZMcMl+55*31F?Ds`U5oW
zff_#67RmlZ7{UR7ibRBrRM(-&C&4qHt8+?#9K=Wo4`rLf+uzU_KT1rk+K8~-Z*VUE
zDcY^B7IF%4R@}j{^qX#+lUpbjk{9rslbc<D)tAYF9*1?$5Y5b!(j(JANW}FXJ#!Jz
z62w#~I0BiVUyFSw(FREy{0vwGF7Sb4uqDB5w?lCma@c3IvC^=+eZV$xjDkSpHoqsM
zG(jqcVm(}E^iEGY%(^H&c9x<u`^>x~FZPcRm2gL(qZ7r>7p+g|PbB7XtKD*R`gL!L
zbVJLQ4oGk$SPhu_5`$Tsip<&CjU0@;CZEPw$=)js6UJpZS(I0&i}!PlL&g0LdIoHX
ztNHDDxK%78Fp7nvKsgTHRl_)zJQ-6GSL7@OXP%h>NiFO(g=;c##$n31_s}E36;Vy_
zK4|r!c18o%!dzPbDWYN2>>Gm-KN#+yp$|jmbHefs*xy+r3N#-h+zhSgxYW&9JBZ>$
zMe?i7DP7(}X9X`Ju0V^xrt{`HTS?(ld(aJg2~vy64w_ntQbp}ciP7uHX*fK3rC2sR
z2eB$6k?GcmGZta!td3?e<QawFG@;lIh2<x^<8YtGfmNm!*B}${8IWAJKr=HrZdCyN
zBq;458i?yCs=m$)k9W~EGcl=9rt!g;9&3`d3!4__G&VEY->xqq_ojPl3y&YQQUgED
z1lmB4Pv{E;?{14^zqto$DQguf!eqi9x!+edX9{>UOAMd)vL_}KX6!64dt^EKv!c3>
z2w?#<1?JicN@k7Y)CCSKCLx-7M>EQGq~I&m6gb(j8SUDT^F68lN^}AlAd~!xFnc-=
z^gNt}Sl#5ANqNKynfE*I^htH%dPRh=cTr4fK(eG-G$7k{u0EUGgs@4vwp5T!en!~3
z1Va#aVUW3-S&5Z#nhf$zU^-eA-+TBm7)5a3E^HgW7Z>rNQPV;j)tO^vSrQ*xU(uO!
z#uK5aHdwL-MUr)W=@(eZl~f*ixXS*BR9^(4u}nT}Rs$C;7w0;d|22jpgsTQc0}n6Y
z7qkex4i{@}e#y^k;I!f+^gSi=5O{kHE2+lZ(<73W*!l|2+%prBXOuX7=^>3(B$D*i
z_w#Qn<$u~MRTv>&9)urs@qmFLWIrfQHqZO-6Txy9n(t{pDl}HE7MMHWHb+-lWi<<r
z62xwey@L>+yo*ZzQm<|r$x)n&&56Zfz^-2!Ca=q8{ufO3Tc25e2)cy1imgxjrqMf)
z0N!g*RtyekdQ_M&UP3MZEuqwtfo#g#JL;k$>9@e~aKI~d8Ge%7F!W2D(AD3o9s!eo
z)|5UABY6O~M#b2Se>8y;<+Rk+sH#Z3<0E@-H_YUCM|^?WazypPhh*?Aq5f~fVOqnB
zmSk0XuuKEsoHP@2LkbwvtiR-9%@@Xq|KSK|RyV6zrS`mFcOcbi{i38F1EbSTPH@oE
zkBi8`)i*}_1SgONvdfPMtEOv90|^DHX-NFij80Fm`q&EQ!>-HGszA22U@xW|mPA6}
zh#OV>G$#Jvevf1eTp6u%PWxv>f|X#snx5NCzKk>#t_nPj2L8IIhg87eJkIxj>$N4g
zzlx;)JsCFGb)zdnKN``d!2Tjb?2NaOoK|cGm1@pGb;K6sv+wuPunhmAYNcSp2sMlk
z*6PsA2j-eu8|<2>w{H$J(Rl7@uPFR;N(pf81>BlBL-mamr$QpOJ-A5)kbMbqi*s1$
z8D<&&%6ucLi9Z9a>4V>vqD;SVsGTvX$Z%iO5|$MCc|S|&)6pzn=r);JuOmQRG_iKI
zAn+nM9xMT^rWnj%f~{~EZ{G~L)S&-%9)bm`!a&^Izze%tu)4IR5G9!Kl|G)vZSp6?
zBI-fxgu@`(8rvA-{Y%c;61v*{@K~XEnr@A3lM~0oa{HLo{;KXA?MP~QyX`12Wj)?I
zhE&J8)Q{a+pRvey`yz!wr|AJ^EJGtT6)L-^t?W`=le-5m$!O+qIF#&_5L-b~JvZIT
z4hIbug7uDD`4~c2SR>HHsog;zs)5tFf>#ba|Lr7+y+rZtNPtN7-RfRySBKvN(Upl<
zNo0hR>g&~^hx%4xx4?XK4{5e`iUYhbWcHp2K)kA}n8}Ah5gT*4{11`Kp)wa#UF4PK
z9|PxVpq!bMGVIZxR%s=l-?5cN_-e<%Z1hJUw1oymJEpYNAp^7sT47%h6xs1DzKXR&
ze2y|39Zl3gLtF}_+A3K~*m{>D1tek;CE6+Z4wmDv6cIF2=YW-+bWE9K02#{{seoi2
z*p^EiNeXl~`8zQ5{e|a2fz4_|QMNn+Mw-=*p}1Aw#G-Xo(HSjaZ4B}=amn@~Q?|f~
z-0Evd6ndb1caMxvi(l0WJ#J^Da9ZcYZpMP7m{*R<Ww+g57v_yEx5&G9#l-rB1Taz$
zZ0@CQbZB!7(L|cEkr8{BLh~L&taxK7K=|=XXsH<}X4}u*@rdRW)ZSIU0mG2C*K}IL
zteu>&6PA`w{dlysC<=6Cs?F^J*$2tE?v$y7XxdEiTfmwp$l60=?q18$xCuab#A@AS
z_ysb}Y%Y;T`F<M8x#kwqF<_uQShW`~yK7$EOCivwpy|P-=((r@C)HJ0$p8tav{|R}
zv~B*`^6o(HYzTw6%`~{&^rhhl3$xK6XwEup08iE@dOVvgYy6IreM&hst0<DX?XYKR
z*y+(&Nv(jE!2xD)Yzon*5vbkP^VljnCu7v{+3MtsWx_uV(4s2ck2b*ROgNd2&=uI|
zH~8{0PjX>m3|+RP2l~K(SR?sa`~pW+RF2`C60-)TC$u5xEhrmE0&2JKC{oETB;i(|
zv3Db4P=}Gh_dX1^3iv3_+`fvAuBU;KC;4p(E<XOpw0Jq(_$bE9*pwGZ-f$OS3zL}R
zj=0osfAYG?d&w2Bzh!}eia%mo2NaBQV;N*rvtp_V**I|X{TT9^?9_L+zv`+)g~mCL
zE!4^<ppQ2wi#M3O&6i+mYiN}b-(EIQhEdd&lxbQeZKnt)Ys$s7rDhq&#K-HsW$BA3
zWcohCXCSjQ93J=-_deYmSj8kpyxpS&hHF+4x*?iGj8|*a)SAr3Mr}gNZB%PlC(xOP
zt=HGklET?bl+inO?X_Q^ANgdCOfbz~@5W-Is|o?z;2b_jDlTV$IEv|O3l@nhyz1q2
zxEa|E@SIdl?U&9MaGGMv25eqz4x^s8ozakm##?&S*20%*Wa^}C7s`#$bxGtu192NU
z3OAEVMZ*HL$^+<2%$==hZ^wU)a^QUufTqwSL%hr0ERe{=WpnhbOjX{FMcaLkj@MR~
z()iOfJT?9Ts(%nitD(h_UXI~~@~|4lB^254Ew*+6U1=FV2sBH?$xczw1=!0ozOOnN
zBs)hZY=x}Kz_~DL7Sdk&);JyHmT%^GcPot(_J_I%Y%U5~0a*R41z<>0hnI#{X{IJz
zFC$Jx{}V+aROC2W;j08+3T%oh30B;TIod?C1oGNJiG-Om(v<9H-S1>oKxMbxzyOZI
zg(QlHbKVlLPb*_IfoI8fDv=)#F_m&P3Se1IY1V+RwXlg^g<uU(+!o`yZno2^-z<(7
zQq45|V2aI@jr(|sxm=Aj@)dVs8-KZ4ZJFgDV<j)?mwEv-!a&d>JUq?ac1*P6`p+o+
z&6D4lh(+T|^bV8@kkix#<OT>E?S;j52tgtt#Ohu`ek7mcsko+U#HkEm>oHiPn!&^Z
z9M!fzZi+~hS|PP4k)9Ldc$%RUzXQi&A0DzM@Uvv8`f?;YRnf=|Wmr?BJj;beYnuMH
z^{n`<M+^f!Z>6~LfSGA<r{L*{^=x8Hrm}WWV;9mKO=lFimTW^Hw_AxzDoj>L7gi#S
z-IhOq3`pQgCFb7NP$k<*WZWNO_8GQ>BEDd_`^yapKppxWIAJi}QIgg|>4&wOg6(lL
z0u4cvqpV`_jd<`%fOginYAJ=)<a#USTG<+qAD*1v<sA8`j!NSo@|Rp>t@q<x#u8|&
za{D5-%AlCdG)OQ-F~{8eEd+=2=rXGJx6ox-m=mH@2XUNC=;*ol+o^<<H7>c8mP4t;
zQVP%mSnp$ZwfqD7Z{KS4X{pN!pfWZlg*ZWKF5*3?boe<A?jPC$Tu8#mSEBv{>JUQA
zI*}4KCHE@;9OPYn;99|EqXN(i22S3!J@bL+i*1yY@=X|0f&W0Bsg=wr_RX}RH@+h-
zGzDE`iPEJ8>PM(dCRl8JEJtM8%V#CkyT*cPCH96=N9oard6-j=Bo51RoblMLr(rbY
z&M4@LZtMGn=d^8_tT_7J#^DD>*p74IUcloDQF0Sjumj2%Gz!;l%T;AZO(fR)2~hO8
zj>2Mi`NQk&wZ~;znSJF6!=~CdrOuw7jmv{QKCe*Y6LG)}w{M`5sTvMx{DG86S&gy)
zMvj;Hzx|V#uk11^88DSAUOz<r>Ci7jRo)d_lNTDh1xZXiJ7M9Q-Dmrhz-7+~s5*wl
zegL?F`?fGY+_^w5!0Cz$FJ;VYo0#08jeWGLlNdo(_?tN;#+(2!9z6J=bW%!Pz2YJ5
zXp$o|d^M>wd=(vKwPgEq14+m|nK4_DKw;(}i=;`M9P7enI<Up#t-_v;2nAQzQ;@ve
z#YY!VD}FFJ$;dF8uJ#Bi*(Z-g34gTBGyA`#CfW)#PDlOVW4voXqMh|n=RWo+-(83?
zJD8^os)ox7K@I~)hHw$|a>2&S!s%q=pk|q`abwa|kc43*(mqn+lWT|4B1{*bs^Law
zXKc%8x8h}1yDV;i8;A_0=Jke7=5hv?DrVSBK^FT9m8*M{d(~)+uH5$KxO>$%46cB5
zFzYmyv8wJ6&tIlc0=K2-MtLBIb}R#V-74UVbz)93T-dh7J`|YQp`?C4JTW|D@AsI+
z+B*9yp_dUr3duL|B7D_Bs4|UQ=I#QVs1W1dHV1*@(3<ERpte4y&kbf>h7g*=Yu3m4
z!=!7gDsd1EK{VK?uS_ghTlfaV1HH|9c)-;xb+}{}&W|=XGv2SHYPU8j(c0>75Cu_k
z4VuY?lJSH08!PtR?_2fgMHep(m%t%GL8NR)>`x#jD<0K}sU8_z%^TsGhBp_(;Nt?k
zs1W;T^1BS|8go(?&`j?8BRep`w!7^D6cUR{HNe;?e_qG@<jDLuW<F&WdO=ETv6Zl(
z(}NeLyMnfNQVAZR^<Bi*$FD$PLsGRT8<i9{l@+jwo#fxeC5<|13aO<3QnxIs9{=c5
zq>0p-$4k@VjZ%v2YDHZpl$LoC(s@0C{=9p|@-f??T0s`uCz+>idpUk8kp|i4Qli&T
z-xO2`?G`BVqVm<MNWuF8-um2{g6ZPB{Iq`Drsru-*mke(0#J$1!3m4rjGT_2l1YG@
z_R0ZYFG%(929-Ns4#E;9+d?1bA@)+MfQW9?@VDv<AAJoq6U*(%uBcpoh7er-9o&;8
z6uO+fvv;!G(K;|uV*?G_v*+HU;rBrAB7G2^7!Fd`AWzZx@s3iW=w?Rj!=m40f1A@^
zCgcHL({Y(?=5Hwb=H;x>Bx3I`VZWn3?$5v7-3ynCaJc9v!${oJTZfj5a~!+6=%?NP
zX9n!bL%O@2a85UX){G^k!{z#!ei#vo;fg=fN}(Pim!EOj-Lc3`;&Xog6n}3(gKvT>
zT{dtXn2-Iqk2z9<DC>iYAgQNNC3LP%zBy4!s(X=TO-2b$V04$zhV9>Uw5R@6&45{q
zK3f$EEYz9{E4NA!SE~Wyy(QT)$xxYP0AEtZtZRp2ssU)q?xA5?e?4Odf9-D+^En@W
zS*4@d=5A@wl<XL!-ga;~MXPdq^j8EkCTH-2amBpWN`@~y#vXYh4Tn?WuFFo^r~h~4
z;3{3=4tFm6g~nTw6u}@xuL82~WFvaWiG6!Wvmby9fFn~G!5|)xAe_e*({g<ekJky9
z&s4A$jggEYY{jO=If?aJ^h4?ol6?bXA9ve}BZaPcjE%&f@_3a?L%Dbd5oVE}(-eL2
z+QxpOqWlxIK_MC)aLyE((r>}i5d3=(>-$o?H_^y!0E%#{WI+?^y6^vsYZ;|1tM2LG
zjyocX(HP>e4bj9hkOooTb+@pLLWq5{$sV=&Ullb?FL&<l`N3Nut0EO>%kWtdtBwkc
z?Ji^%0qIaxvWXJ~jLiSJ2<0dXB7^-@H>SDfDjJwa(p;Sm*Tg@5!-M%f6#nD}ZJE6`
z`Tt$G2XRwW3qkt|!|3%@f)~=((UV}xR@I7RW23w|kKe%Bn~SXfH{-GA=LK%#s9M~g
zbStY`l(k4O>HaLl4}e*&c6Fr{p)F6=v-sC4Qrr|NLeMfAIxK?cPT(gPZCWiOi}lG}
z;?#J>6<{rlqg4ERl?A_tKPV)|=6{a6r@&9-D!?b&%|CW#IGru~7MnG|>He=alyN&!
zOR!1`nf<VndNlaED!lz&g<MxWc*TW?Q%t;dy|&9ImMw)H@=zv=oL>U72CBjEJ!^oa
zG5(753{%<VI~5i{P;DgO1R&F~={2Vc*n~>l_8%k>GK%{45on_{sTUMKtSMFOX7U2E
z#$rLVG5|~0X`urwUGQ^wH0Y|ulMa}rLj&rh<>=<N#+U?u3S>JopLybns(I}t;ETsd
zBNVFoWhV9jPaV~TkLaeOtmvi(T(n9<x69@M_!*@6^P#tbOo$!no(O#yxLf2&tHu2b
z!uDv3!N8GdwqJM->&sYB5K#-?kcbJc+$8<Ao%l?FKp0lIyXYx+qSS^}@I>HekfxgJ
z7Vgwv&V})Pcwqdk##(8Z9@Bsfq561OT4pS>nT?5W%teODKcox!TFg<r9|c&E#+G6y
zU=dr2p;U3<Pr8HNh|cU?8k)Po&#9m34&Sl&;y4-8;hTM=YC3OxA9tm`ofyS{bt&Uo
z(8g65T~r&BxOf0|gb=+s_S$%l1=hcOO)hi~wzFODh^c_|TeCz;Y8Vk!kjFum3Dq;P
zo}G4#<~3EQ$%H(9S}iu;ja~~J<(47>;WUZLn%3T;Tt}QTb)52{wLQ%x=0A7~5SLQ!
zz+oJr25wPJx0>kjfheWk!xn|Rx;4W4APJmR9ZiqEAmOiZy>*IE+ah4rjDg@+<^E4E
zQF*%T`r{zh)!(?0+aB_b3~N<wy3TET8Jt8wR4sY9gu=IfvEH<?NQuHs8KhDrp=luF
zevh4JEyWWJ)Npa{TS|m^@+aX+3D#)A(cmMK0;AyQrqVBr*78KQZygKz-aJ_E&I^xa
zbuwxNh1j)kz-dcj)+w9pt;)Alh-r#|Zb#*44fK{5^EM4C1p8Zyl()PpR=m^+0XXD1
zlQK7POcnBbe_sideTqwK+v^Sh&GJz2V^AqAr^d^9yn+c+P>6F2&NXec99U$a2sC)j
zcO%p%e^r)l42%_$gfZ0nq(Mq%*q^<`J1N+p{}ICniPQ4+?*^0^+4BQE#DT@~Vs6_9
zZ!lFE16-UG*3W`VKSruMzraBH1+7bUE`hIp@X^#9@8TlqE<{Bxnx#WnPG%CfDHUXG
z85w9a@6z5P=UJ>|%673*97rujawr2#`{$D%f?I^Cxz_JNrTr_y@L$1KOdKfUEo>ed
zD2`Sz8V4CaX1*0z50phLutm}MeSgDeVjIpM>au5IYH;}U{WIl7x<0F<F>^p281}rC
zwbpRh9bh&1t%*C}bL2rZJ%;N8qJK+!tloiW_0IRV{#r|f-hqnX_U%XVw+RMG?=FAR
z+XBSMOal*tUdD%0>_r#u=6}3>WO7%Yyfd>+4A|<FyXp{D`xg==3d*#8%3qa2fX3cl
z>sIh_vbfCn7e|G&7prj~TE0W23x?SF<3o>Mt)v>T9teyv0!n#6rGfL~J`Mki8^YQl
zvC`1%t9T2kQjtzHW`}*Y*l?7gqC4X!yp|SSIv}(BhA<Yowseq1{w;=_G3uc`nlo>8
z)!bjkwY?Q^)A%b;4B??sH$&*q5%GUV$Jow&QMzqNbFc_%!#m+LvyXB@v%`Puwa6iF
zXa5iZo>!*iA~z*&lP<%qkMV%{(h+!l7Kg%+4;^UV!KfC7_aJ5b1%da>9hD`eCANHD
z^urEJ8(1dn_#Y<nPW$ysz{Dk;+o1Ya4`SZ#N7w)73nw{BV5Ff+vl#=jU@6StS3tsE
z8+Ui+RQh!^Ek~7v0`9aL1<)@ve;Gs#H6f!^U`MxD`4&|3`A#w)e0482FV07j-HCEw
z+!&Tabv#pseaB>oRCh+E`0sL5`YUn8a9lrm-rBq1I?2nMn&Yk30nTWP<j1te3h#@O
z?-)*lWwekV;}3q}?gSZO(q}F_d2^>Y4W8>BS@&j4!l>*FM&VF~eX3SFP~S`5PcHM~
zFZ(BhD27T2o_sm)krB-Z5zIPP-zt=Is#yP|z;E_>-@*(OuY;}9J+aba<MiE%ti`2i
z4_`UgsG_-7b8iI?hR$Zcw-<;A*S*S!Jg=<mb~&9J`b^w}+n%zv2MZ_w<;Fzgw|{;F
zTZmvJ&^nD0`VXBzDrjEvbErk<O8}$glTb!#x7xk}FR)GiA^h}m+qPLt&&hY0drn_G
zT@OwTpH&zfOpaLeD1JyV{nAHqW}B%9TgR9%A7lr=`w2c3bZhHiK?QVmr~$FCc3OB2
zaNnlrORUir{xPS>yC_b1GiIsA&hgkP4{TC}Ynyyt$v*@sabWnFIn0J1O+Ui9Msdip
z%+xj(QL}8|F!5}@sN#xf9ZCpv0*KmxVZFYj#5f9nCGSj+WDT7MwT4=?G$rss2)nUe
zJ80|t2JlPY!0Z2>w@n_HF)muWlWqb&Z+nDQf{|2vgg+Xc2lotdzE0M`yNF0L@lI`Q
zte=CelJW5tZK^*%g=;xy;2Spl*iL^OtIo5>j_2i^K5?6M1Dmfs^(CG5jJ;{@|0sd7
zeMq`ZkM1}2v(HScCHT;chBN=YI^~4ujp^DOW$cO>gi~qd%0B%++qTsnM8L)_45ocM
z?)<-wJ5ot#74jtg`R{QpVE<FjUYs;IJlwd9eXAk{+gXQjvaV(SUbJjNw9Nc>-QPuv
z@cwhrPHu2V0#U3!=>j~?+TcGn3)e1B_S4k~gZ2K<_V2126N=u8;_%o%(m|**2b8Q#
z4Ag0{ec1Fg0Cabk&+7K&9rsKc>nZ;sC^dH{fTV=R`f9=DC1g6-RqRd6JMjLBI_M;q
z?C?^XY+v%b#L?F&$=LNPq?y~jMZ21o{g-;%(%V4E4H7OzrA%w|r#a6SEZGpv#@p2V
znjo;POP9(d8wZTnQ3s~k$2zBIg?6%b{eNaf^RVw0TpilkDs#Qpmn+zqzczs5{r<06
z-G0_s&~wu|2GTXM;cY(Bzx%|(4481vDO~IjfAqfRUSX<k?K&Yk;->t~3vZp^S_Q6^
zPr37-_ls|A|F4@lY+*hCQ#_NA&Tq%!8aXiw+y8qk%iCDl1l!}cu`K^J7IY;a%vmhM
zanW5`9Gen7+3BQ?G-*f)+x3+G8+UQl@GI({{8*gKZ$C$9alq;2mMSg){2$H#*oQ=8
zEbI6%jM8-)=+^KKWg!jWr@p~|j&(`-XKY`<UxzB(Tulsk|Bo*s{F#G~z@Vc9ZkyT5
z_1rTRZvH<lxu3Fp7J0sYc|LeqJ8<3beSB>1>e^WMetMkh@_yJ)xfMC(i667S*qQQu
zJ&f^vecHNZeQoX<e0kWqIzaDwxmZ+wdzHq^&aB~M?a>fAx$x`7(8~Xz>zl(YX_`IT
zwl!_rwr$(Sw9RREPusTL)3$AU+P1yteZSp(?%ikaf0b3gjEsy7<T+It(e>Nk@8u<y
z;nL^(|4q87c~7VX2S|jUL-Ri-p=SO!33YOYp2|Kq%0HQli=28Q+aLMBv$&;f%^8}l
zZEOT;SPThWC1uHSb}xDixW*XIQsM%mu!Vc<d17^{H5zLD-kqO$-{*eBZ20-}K@uG|
z+WW8UI6TL$-1~o5epcqr#0;4G_jq1CZ#{naZ#jN#Oc~VZzYh?Ml-A&yGxdFW@cH9}
zrZPkg-CmV%*u@n1pFT0&%@Vj}68Z7+(#J4_**p7lTRwLRQe7IitX&-+!x<nDjLiw~
z+FrN2`ak=wT!uL(h&*><?;R54HZzR8PAz@14-a3n@VFqZ-0$p8XcQkuWdgEaeK%g}
z$Btb$-e&rozY7c_`gio?OenRF{<%D*{&Gy)a!1U(o*58$U#Z=Cy0r>lob(vg`}X1e
z<k_&3NV;FMzdt_xUb+0dap7yBj824^owV3#-=DP)Q+c_1cRX?b=8O89aFzweAaz3*
z(cB*hH}1<D(N3!5Ak_;yJMXtA{6H4=l{^6L5Z(NRs$op8HCan5oyTFw?@afUF!VJJ
zl1qM0FQuDtkf``U7N+1N`=gUHb*#K-In&75+4aQ0A}sOkr2$(4#pkv@@_Ja{i~s8p
zE$Vf6{mZeit4sR>3ssMGB4Jo*s-oytwUOQmWQi4AE>3kJg;kKPg$!O9@R_N2mla0*
z1}-mc|9}bzDKzUZjd?7H+9D$kBfa^$%-JN?3-Ui?@Ey=CZNrjosNE^7ilL>EH;ZI_
zr;1N<DOR)0XqBudiV#WKu){9dk%WR5K*CP?<q*}e?gl?G=;j#HTBrkWE`6v&%S#C3
zT#yswiRxu^N`xlp?TV>LD}M}5Pg50BC!Iv2_`Gn4?l*x`Wf>>A{7%RzQdL2cE|DB7
zBGkMx!*QvK)Cg5(rf-c?VGd51#|LjPpGW%5Q6_ZbJ)eO?#v%ovo@5)JAV<Z7B!gla
z(%g`hpdJU$DMJ*PDtr%YVMP@J1+6t;YX_f@9Soo>SpzjzjJL|CUm`Rj-{}OGkmN&J
z{X>j(8RrIic8<FNBE-DZS`R)xQxpIe?G7I;4c8>m^b!svDiA79PEsahAXT8WD(w23
zj#F@pQLwAp8RzpmA@^UV^ChW@vNN-N(;?_ulmnH7(QOC|lPdN;Fl>=htTI$lk2z|i
ze_q(yl_|j_CRxJ>Lz}Mok0+tNgUFyXT|m@IvdTM9KcT9}+7!&y)4>kRvx)}wY4yQt
z%aCQw>pWnBU8TSzJacyKFAyCjaXqk(PZ)|7kWk!gA2i~{TZJd!sZk3Z-?!VAlZt>Z
zlsS!gmyOrpF}8usd~*K2OOFvXF>&NS5Qz;30@l?vby^t|ofnVaJ4y(D(dz=w!t+yu
z4pDR4jeFC{{VkvtBG$$9#_8guIT$XX5g;zPJ)J%ZUfE#3jG}~KvmT{EhNiyuTg2L#
zsFK#Ygp1b6_9wZa5!5_dy>0Ng=A5YX#AHK@;^RJ}-Do9BWQFY*(PMkuQgV3#@d$)!
z^I~=QXkl|uEirC|qdWxi%Q$#N30{ewr<$-*vM*Or3}(Z!eP!8by}airyPl;RD0$1F
zEGRzM&s-oi1B8X)PU`%u@nt;ajmj71SW(yEF(r9!G>idNFy;gKJfaLFjY;B~F#oTg
zxd>{72n+IE)cKR+`ahIWCw0aWL|>^*#0m_5?NxrUDS_4Mn)l-pJ1!d=fvNxImgRY@
z2v(-{c9oQ?+mkWDnIac59<<9k0WB3pgBpfH#6z8ve2~7mT)?PM|54KAr6%0MGhzNi
z1-I&DK30^?;60ua%SH32y66G=VEOOtVj>h+h=w7fD7BUtHX1(&wPZy_vzC~0=%Z>E
zsRAvT(h;2UKlA~_#CFk>76K)6miJQ_Rqd`-TDPzjh#jsz7KquL_S^ZEN!N}El$I|0
zsEqQFri$T&vg#_LBuy}{Cj%8~BUY9A$%@Kml`(_%7KOFVN?pWCibB#Fl+^7OHPxu0
z9Mlz#d0l^FiL|S5T(j8E)S$)G*w5154EQPNq*Q5QB42FG8b@et3VzbNQSqP8vAmqf
zHEJPNV*Dtj1I&*onU1?;TElTis({<uSS+h)URva;G@SAclBU(h=7bHaJY+&!bt!NE
zk5H{NWm$uegt2d<bp`f5dW5hpF^w9Qhp1`vQjox`ZJD@MZDU(KS%%MFIq!#x-~wuI
z7gGFehIdKT`%7LF@aPGHtD^A!;W2>?C94x~L8zeG1)ZvPr!2QaHRxhhw?oM+wjDh2
zcHn8McoSqif7(`a7=jJX9dMg8@;v%Kw-pQ{Rt5l3$eS6&4BnbAsooFJp!{%`3NRr~
z!L1So_NfiAHVxK0QOM^$DX{}+8bML2T^q4qDu<JrGXT0Yjg>4QRa)ZXV~)A4bH^@v
zF^iGIi6jLfE4Oi95e!1J;Vj0!5Lm00!kg0-5I4MEbqIryZCS+;qNhOZI1S@hqOOEE
zqb2ta05?#-JB#r)PpSLzPG^HejO;<vbHIq2&=vfhLB}O$;`gVPt|c{LyPT~=89&R`
z&|VbPn`_<e${th;HoNPS{Agiio(}YhjkE;uAWMRC5Xj1?P=4>lr6*uNudrQC&M9NW
zIObs_t(pB<Ws@NoLzZSogCrNX&qJ@ZQ*rsVQ(-ltpPVH{m+<_g&mOzA!x1)e`Nipd
zg}=viTX57k@R~ila4quf^k(N%Tt^V<_k6#g($aQ~uwUxoj{oNO@@nKGa&x(~p85YK
z%)QlC7GT8#0!nT9pSKYIDSnVG<BTqq5b}Ia!+1#%@mvUJdHz0Hp%uNhy2`sujRd|N
zz$mq~bbn28Cyf4#_Z%*{RDgS<;8|QaI*N*)vs?RhH#3u~|FM6yd%ORcy29bc#KCaY
z-3dr%bvxlu>+tp7v+PgD!GND@-_zOg>GFMe^*Hst#kc)&IMvhn_W8Bz5KC}%m81U$
z*2mMw_kQ>E^jv|#fWQ0m=kx26W81gabFtX=j(|_MueHDL%jMzzN?6B+dn&`*$7wMO
zdDn-}`|ZS33(dzv-7(Jd^^U)fw|hGv-Peq}K~A^c!S2<<rONx$KdH^$JnoN{I%4UX
zKY1DOueN)-Un@UPF>x=aCOB&8b3X+LuKoNw-|nL>C0-xDz8p3TzAm@UaU1g)z&rH2
ze}8*;++JOMUhW9+eI9>a_iXxpTn?xt(%Bo_J$)_gANm{ke6?D6-tXOC3NU<szmK>p
z5a{oawhY>Ky51fQ)w;(joR5^syj<=O<X#DUUvrH5^(?kTwO(U7`s<Sxk?E-TZu=vD
ze-eMqM6EWg8qTwH$KQP7?2fSADI3F;^X~IR?9`(8>kcv0h~nnncNJZ0ND0&!=T_T(
z`NjMA##=-xcN-My>X|$ZG4#MEPQ-C<@o#l|KK}fEj|zkRe0g;1NWM@ghTm`55cqO^
zUy-TObHLsF_CS^Pdb}gp2<c{l{5>{`$5uk<Jf9Xhsby3lWWIzIH93Q`ANML|@{v0^
zQL>S{#|3zW*B0;#77RtfggBy<=|P6m3honS8b_ojSk2@l^`_CZAm5;$0msDkwv#&N
z+b?h;bzZ@#6@ffq&*R7Bw5o-$rsTo`n`xyTORuqJt<7-pyx%*lO+AQ+@z+JI=*#1V
zM7%5sh$u{j<gPa9+cLsRpXkmyQ=TN1>4v$R`e}yK@Zkw&_vcJ+Qe2f*14VMbWHF<f
zm1uypk{Xphtk4R-E+otEJrmJn<C-?<Wa6>|5yz;)u>&~S2>R6!e+nDCa<o$F-%yHF
z<<!MC$&%rqU{-lQP%F_o(K&R5<87H_{^HW_DptsmN}wKPh!Yo=O9HqVuaJDzhJ5=$
zQ1dID|0PX|)Z|5;+bqcv*CvG^0DD9!(jNLj$p&94sTAcmR9smZO0rFaB{3(OVjyXM
z9`rU=BPYHjxGD@&Qb?@}L<#8zT<LM3syKCWxikrgYDI<gqt{W1f`Be0s!q8yHP_B?
zfZ}O}^-N2~Swc9M0n6p9x{ofi@4B`G_0qpR8pNM-kKT^MLo6I38!>r>dD|@ulJ7YL
z`O!Cm|7M;=Yc#-H%RqMD1EDy5VqcyY6PA!@j@0R(MITc}HZt)Gck-2Fu^3ZB4wqiY
zX|77<+zL1Iq0aA-oSTJtt+nZ+oSqhYyPPXB<kV44M+K7%7T)(+c(Q;TsAT@Bc7gIB
z%XET^QlL%4g*iG3k}9G|yPBZ$aL}LDWZj{~Nb@qWg&E(1N@?c<cltGWBE0j%rdq~O
zz%1-&b9$>S=wWdFvke>(U#p4{?VNiZ!-(HY9p<u4VVF)Ij^<&z9^0iYvR>qu{V{@`
zkeBo+{+4(r;!tnD$77Xxunz4TJK=$^WSous)}0qbo*RL^{L*dEFhW;*cBU)%DRjw(
zYo=fvZ38nFLzZelYizyK^ii-z+0yV6C6aX@!A#$uV{i(5^-g8OrlT4Fee2WiEpt_w
z%}7tqj~FBeYxJCM1&<Kz4QtQcKu3tO@<V6c0!C!dvgOTQ8c7AZt^SQ5Ysa^cz0No;
z;m&e1u1nW`n#H|eI-K#&5Tj<-vf6`q2BF4NzMcO}GrO~z5+l<ya$?aEyuLq$KMqms
z;hyW28e$roFjeo55%RA}gvSgXFYwcoLl>Fr*#--F9i^;=L5c8|Fk?z-X$S^o6&R@+
ze;}td@?*>a4D{N;ptiPRjkp}c_F{L_Q!b7HNBJ4S&9IB=JIlc+Ra7T^4-8(=gLyZD
zD4J>yGNRSZ1pwD|^4p*5q!ZCRoL&Rs{rLm*e)ng>bgkkl{fk5QrV5Hyu*D%gnM?5S
zU75H5UdoGcz1%MoLazJEu(VI=ROr`dgLFF@n@|6G)KHAt8hbXE1J$Fyu1&#zA_0y}
zi(J?IX7;WC6%Wz0Y|tB%LO#c7nDTCK#d>-GJIv@z+folG(sWi35LKkzTIjGzoQ(Md
zQkoFhpUWTEcB4$P;@|Vt{H660=tN%jx=O73eHI$JJq6zt^l&AzH4DJgvTHF>hhnt<
z#Pz`T0O?;>l+%w^gvqDNuD`jq1DA}cY)c0SM7cfPeFY+&g&8tjdjOgqss$M}+o=36
z2t9{P3z#D;v8pqIj0^1&BkJ{$yuOf^@~Ql`-iFDxCcmJnCtA?AJt9}FE%F|lE~^}!
zK7B6qcprE@r}h>j$@P&s0B(J%zO9#OvTZCNsHz0J+0w#<Zsrwc!<mbN7BVGF$wkt<
zpw1yX+0hoO5f`JW|9tzkj&)yg6rhw-OL(@PWE+X61+>O)vBqvzuMXB`M`B?62t-;!
zEAV^+Gmk3seDk%Ab}#%4q!bSoT-LbenVujq%qo_+*)LcYjPq&iY4~a+y*+c;5%ln9
z{;~t|ogQL&wOgbWdbh&3;ReTU^3QRW*}J^rjh!*-(-z`oNA89@U>TRn6Z^8-8E?=q
zBUECO8C^G4P`r>$tdl)e0@l%T<#0=kUHXze06%}xCNJd2ytn$^1H5io;`csq1%!PT
zh^f4YRIJC0nVccYPM502`xQ>mYe^q6GCjZn&LPu-K#76L-AEU$R>)`Kfoy1mWpP<t
z21A8U^Wnl*3f2Lt_FwfI0jMA2*2ue3!~5TQgwUb>B<~otG4Oe^bz`lox7iRM9n4z?
z`^N!g9086y5wPO<-<>m@&4aqJj&7zBv0TsQG-g}KEc~k>&XE?eo}QR?=xeo0i1&AX
zS4ZeY9DiImu9>c<t&?|W`=h-ZbCj^PfzUDM`<qfNOr6-(YLGu?$KTtM35Y3^?GJs2
z@`toMBO9kUy{PjX)v3gcN4;oZiFi}iiY7osChrISbmne&f}ciL=WV<iDl#g`MLK>l
z#Uizkkroz#U`K98P<_C~MX@!RmF|wwz%ASv*`J~VT%Y|Z=t0|SJ=VpE`C#o-cilVh
z+*0B12HgZKoeN{nb2hk3pR|ovq9E>5H-5oeSj?Y7tWeo_XJ{4bMR0L;vCzAP)4jS+
z=80_nA0zn0aB{wBnQufv8K))ux*Mi`tptSQm7OG_b`?35^$LQl5-CHGuW*v`V`E(W
zaFsUwo8yScs^u!5es(c@4pBx)EJ#RAW7sv;{6upY5lZP50ZcU>yL8KpRn^eWumBsR
z*y@L*^xoy=73G@ogwu3i=!|EtHV_$Vksw={%LbNmqZv4`wZba-JFwY~h>RxPas{l*
z(lN*Q=jx?t?uGDKTmdSiRc$d`>qq+E1lk}(k#qc`W#8~T)pl3JxL+3T=!}pvT##@Q
z`xVN4aI-0;wRTdg=?ybL$Cn8chJFMkhXb3VG?FtsC*u6N?<VmLfn}6d2%5JE)eD2a
zs6XhiNoW_-u~sfXJG$B6e*2{10v1H7829z(Wwcl`M1eB3%Mz1g+dXvn(Ns$V&hC$J
z<m<~|BYOVHsg58Q(a3hs*fa%-_`NdfPpmnqj?OL$S>|2z&W+_Y-T@L5;Y4L#*nLK1
zg5w$h$I9(Cu`7O>q>Y5sp{SzOwM!V~Xryl<t0)XvuO#G$&DN&*q0M~Lb^xmjO|su0
z!RYq(!%^1NbdP?=X-oMe4QC&?hZV61lCE%NGS-BL_Xd=u`PX?qL7At~spDxKl89y^
z3{%!35vp$F#XtIwn&L*%4*ecL$>4Oq{72XIygQ!;bR+!2Ps-M~3|CVLF{T9vv#K!}
zv~%LyF1GGnmpT7jI@)glG`)nowmQhpA`xhg&;?}UD$xV`157k=jJ6YEP=S(YjLi^F
z`-!vVLIg}~p3Xa%*^MdJKmyc3PH^$9t~m5?qU+`C{0Sqm^|~%;8?4^FemLJK)_H(m
zRFQJ4PGYiHrks&}2xR7JLpV+*8mu0=uOu-atFtUicb{<q{}=)gCZBWcXGzT0#nvPD
z?oKssMmA#z<3yr}QV-7`!PXMyiOC<0kbSZ`T>kM59S`BBE~gl0rY>r4R8a{hsEQTL
zTl9HPtcUKFE1a?|BW)%CFKH;{egR#%DHapEXB=R(xsm6g)R)%WzrO@8qSM9Fv)oc*
z)XX>K3y}W9ysviyXD{czpd(W+ir4cIEm|TOp~h-@E;#Bh-Z5aJ{FTjafS+O5>ZWM8
zwv}2K>^9lVR7}1dl67n-Ny@j3PV0$7cAEMG&^nm^^uD8n6!^h4jgP;-tyyWi2|J3G
zo@`WRyAhJrCq1y~ozVgCaL^?kFTrNaSq1`%y4$g7dbMoiT-|BV()Fama*IVpDGPPc
z<Wp0CApbBw<<rmGUU!d{`b>geUs`ssOJ;hYjwP~@&);8LVuUT1f$I&Rx6Bm-f!7#k
zb5I(K)KqhDSp`9aL4IKZ16v9?Gy0+$w7RAlh)i?F+Vb>|W>ow3yR`eTAC0Y!lctv6
z>7&WUT^A!IRXXSkZ$=GVcxPk+Xu{KNZBj5lXQ|4gI>+8#J^&xCQDR-Hla>wA>KkY+
z%x;#pwE-fdetVn33q<9r)gfo9mC@#qZ88TtwzOKex0899oIb2hCL8?1t(E;1dJ&1{
z@{}*R^Gu~gOrs%|d;U%B=iuPeUN$G`ue_5#yc+m+2p?I;%m2p1W&Zv5N@J=)$9#;z
zEw_MJJbjRLeGn4{A;ndMX5@}A&$NsgXNOuszCIU+-28%23x;qAdV|n1*XbK*6AD7*
z2Bj4GeGbDG>!0jM0g}l_DSqL3((T1FmTN;W;rqs#b2gPrQeo6s`<UzxgSN@Hce=T}
ztPh^{Cjet8a}mkyBW?@{C@b?FRi#dRr5#5_CZlplMOD#@+racpOP+Bi`PbKtT9mo&
z@?we(K^Tjl+eNx%kP42y63?7-p{fMwv~qe)4Q%@4=m6Fmo@%S#!e!NXYQWJEvfwwz
zG)*mn<R~>NhVTZc3KzR$S|NbsKeOR3l}U&{7GoPaJV0>N$ud3&bj<g{FSZ~yUW?H~
z<{-Akys4m=(ffD%r{~lCG&ENyBk(f|;Fep4G2ON)q&(`gxKLfnfzeV}5&3*_ya9uk
z7kj_(KAk{DMzJ9d|Bez;kAN!Ksx8QX$kVo_-&i}%magWVTsUq^2AGY#Sj!#w#CFI=
zL2D}+(RQc=uBb3apD9ID7dEq6`54^*uWx!Lz-a<P^egk&f=ZVEB*|b40SlEUeXx%X
zr-r8qb5aoU+G!IU>Z6%GAcz72*in>7->Q;g7R!P}xI>UtludAk;r5s;wa5l8p7FMX
zBozDeBVeB*`}_!QV2O?>6&a<<H)vC>oo(Mo+Brcr&P*R_tQ5^BEL_`G|F6Q;GZ<Ey
zJ%#S;QW@0gmy*85{2(Esy2oTrHLkS}vBy3-pV&MC7%bb?QL0pT&Rzi!<epqYGh>oF
z8OCX=;(Y(}cRG<y5GS}1-GGa4y0`B?)A9Zk*3U`gM8kBb7VKP}#QsLr@9nq@P?&fX
z3bnP2qL3FPAsx(k_W?hRD1QGC<~K--jF<`YK%JnZ_?<NAMRnc9Y}&PYqd!rHRXUm7
z4R8f#S(FN|UXEqFhv!3WcZv!IDk+zOFv)u_mV<Lx7NN57wca&mmX8ygX8>O5x6Uxj
z(l8-xHJM`PEPwG@gT+<jbYrt(z#yHApwIkjf@^#*v%f?yDpXmj_8oebl`7>Pk0Kyy
z@6w-PzyLC|vkskTkR8R!EZhtS7q4nO-<(54PLgteNS?p8RivUPrwPZb#J37qfm*}y
zjGRf&J6W$oxr7NFd*yz<hndG!YtOAcI9}sa)Ww1fKUVyu%fLK8jM1^l!hHGulbJ>-
zOuu`&>tC(w@*%68-cH)TkR!?w*)<_k0MblcU`MZ49eu&drcBg1pB-8GXP=s*-X2?f
zu)y_8#L<(W-|Bwj^jLZYsj6F{`xTh$&q=WcW@S}Cr3j?KF#^Eiy-pFj6GSk*jIt1~
zd4zd4sMjC=g8S%@tPj=uT1fIzEptyUthBlRyAyY>g}!Fqt~uhgP$tTeI~-Y*0=hIx
zJ16+AH-;LiW-vz7KcAggX-frwJ=#-i6ZbN?Z|{(1>_U~NX$EXw4k9n=-N;XzVp=^M
zTM?oh&Ne6i_3o1zvJ=i$`+@ty3?4SF8}G*TSV*stEJXE#A@BXwt|$BFoBwP#%jKge
zc{xK}abAx}L`7nh@RcDX*S38fn^NPrK(qAbxy6JcdVW^$c!}{9YN^)hps`!+aeWd3
zIbsO_?amX4Hb?aj9JZ*;hG>b6Vq5&;oyn*nmEY$8RNY|e`T{RmU>^U=#cceA8E_H<
zEEt}0e2S`9pxaPWzyl#TZ7VSr2_b2oR{xERFV);*l{6>!)#6XU%M9K-jUHI176Ual
zdt{Mn22LczkEx{>8%?~nd1520(ICG=`Ac74_5<WE7d&w828;apA%slO#8*5eq#)&z
z%$C`OCtMNwryFa6a$1dFwz@I|^;uIJJg{HE59FJ2YqA3<E*<Ik2*#kSjds{^9@kc|
z7i9dg=AP=L(}!ec!``N`-#}a!bvCMp`Xdyiy51F|;(ZoDSyWReWBKf|2j5V!tQ$L8
z<1X4V*o+@3s1=aF;ShpAFP04rW1))FN~bP@veQ<(h&u5~q8oDt)}wKj*$65SAMPkx
z*1+L0x<ITV>d8(N!5Lkycavb|#_>b)4_lIRZhz8om`Sxu=aTZ}RSGU~fj2*n!ULYi
zXfCzEOdEWV69_RmBxqG}bHeUPc$Mw^2dEZKInB;4zC;P7m-0?kacz|9+cc*aaz+aR
zkFoQuTlOea-WBE@pQ%_3NTadO;?}ju6c;qt;9@$aVP5M@sx}bP<K&d%*Pf&XOE`s^
zIkh_L*QGSp`0UJb7c`nzG%+xNo%~D$HT5rW&xsKyPysoASn@cf5b~{?{qFnk)^Dke
zG%VJ(APv^_9ki_RX}npTp0&7U>*oE=0jG;`n26{*H#t!kCnc0{5art^uB;f|qrV!u
zAR1?z)z0}P0}60d7gi=A@3PWX<<a-F?^#5qTc8ys*{_&7O2;l(+9#jZCyjHps8(C&
zXx;p)bqYaWp_*E|46T!JGr*FODs0mYDW=SyT{3;eJJ$4jw5%y<HrSmcw7JI1M3O1B
zkb~(8WWQw<?QJ}Us^#9MuB<rUqhlJoQW{rB*dkg)vHotwk$_w&!_&~wi|FLCdOGhx
zKa=aUdCF@fG+b(8^A<kZ);`m+yT}nIPXP5Wc#!6iU%H?L2hp)dWnM?eG3a|vIEhIX
zIbG&p{Fyls+OQFhs@6m8DRVOv#I|!e>f-!TLK>p&>~bY9t5zApzl)4!o_C{#%bAO4
zUWvr$=pgq~Iwu68!Uig~D#1c9UjL(hPzXdsaKL3tBOGbXvkdzFKDRC}qJ3_uBFL!&
z5p2Cm`s5^;?-K+=IWBGm#bwe$Zd|qAN>;r!m#A*iUg5e7y6C1(ztzT2ZMhaBC{++1
z8ByK8ez%M!<jLbNcN9LXXLT9V{0C=Ysj88%H>FOBeiIvshYl)<5WyXDFa;<zBXEI3
z$20B(Ok5)&<5Cmh;#%H@=hBMKEmTgP^e1+lI|a~?gjOGY+FuM3UPxh2o4?dvQ(7GQ
z$QLKdl}vg|+%zB;U)C>2JdC|+^AcdTj`Ar%FvFs2`LTJn8=9zLK}e({>oH=1{Vr<f
zv@m(FwkmSlxr>+5oNTu2nUyN*!%$^o<T%mHf9P60;u}y%%{J=kS9e;M-MCk@FK{zk
zOKu5)>PLbErwif`p?h3iQXLKm(QIARH-~71$Kl&el<ImysxKevnr3mEJz-v7NCo9>
z>L^F~sgp%eoTQzg@|A5>n@cu51`H)Qbbg<XFKeN3-hJF5WYfVQjc((b(GA5V&Wtn$
zG+acst~+YzbQD%s54)J1)577|L4_xAfGV@!+<VG|N-d?u+uX4TkvZ706+dD*pk16e
zR5I}`asRNVV^5Xa({%ubT7r^P?~uS|HZ$6HPl<Cn02OwsyF76Lh-r<R2GrJ#CP8%H
zz6EPLfk+x0gV_&Pq+t{^|4EkWjt-5--rdIip<^kn#yHy*_$dQ@|D-oy5{U?@WtYf;
zEg-|%PL4jR4#_%-o@R$bRMI@$jkOy9w#_aMq&Q~C$%h+#M{PkNKJJ$fq8!icg;OKx
zV5o(n60sZUH}rqj*|74rsV}VJJlO?E6O634qWc%l3OPZ-h4Q#6RQ>2eZ@e<ZMod%R
z7kg{-0_2LZ#TuzT7HR;Vt>tp%yp<NCZSah!Xh+jvB4W_3UtbJ=E6zf4RU`e)pC5#i
zIKbn7LW}uA0UueB>dKBW=t_H%k2=`-wJusV?fbR5Nr>qFKDA!f!t_|Djmt4<)(QxC
z9>+BuZB-Omx{?pbl94~~)CelF=1Bp6f8Se|H_<&GdyFDQ2KIsJj|ajmbP6XFw%0MF
z)}e)3o3Ki~1LoGpxUh`>SE>^r3LC(8z}gnS0H<mm<Y^uTFk1b1q!jSfr4+p@NR8yx
zgNkf<mcie74%g)?b#X_Zq9lNUmD#~AQl{bx;c<7pR?v_gZct67y>Xm{{z}Ki*-3N&
z*afHwrecqF8_!Tc8KH15TH#jF>fLgPdC1`t)8nxnYES|d4#!LrPy4a8tVZ+n9?<%n
z^@a-AXurcnT!&p5?3AHEo*dmJFxA};sHX4EhPj|zGWDzfz#FH>12X=O|Hgn26-NO!
z@q`f|+N~;|SIvTU%DhMVeR$efWX_`w0rQW^GUuhVI`w3GA4yOBjV73h9YzJIp~6TC
z!um+dX!e^{Zg51Ni)n8EcQwd+uUe)4M4JU{eIN&(Wi_W557V}Nm*CG29nhk5SN>>O
zZ{qQ~1n}E6eFxOOYEAVMBq;)39-dh@(W_yxamBV$kqC>KEHeZ%y|TEbQ@H*|6llmP
z^|BTo*d}TmE*;$HEkrE@SS71CQnV6GYW!Ne@csKO4RfS9PYT34&m};>da!i1nWRoh
z$?4`d?R6^hKhY$Uwy-0lmgsngYEm-Z0VnZjVV~SLo3c|nFy4<Mse^w39V7xZqx#Ic
z3Dw)#Z;K|@&Jm-vkZ2w*FSY{LZp{U1n0QsVdfjN-+E;F7fsM8>13__(J69mp50f^A
zlL0d>y*01nbS5H?EQ#`D+yQ3SIlT^qvu*881sv&dgW%KwnOqF~^jyt9t}+_Y*4oaf
z=%B0dr%<JKxXz1#Kwxu=FWWxXey8)z>wROZXNUje>2_j2O2PelV}(`V=RKgZlLNum
z%l*RV%0%uu$=k|%Y3cinKj6*Q)@4UW*rmf1eRoff|JyzT!-mC&-}g<+#Bt}V|9>wm
z2mh=Av;Zg(Ob7NqziRxqiuG?5z1S>5G~er5!cGmakBo@+wQ2KtepagtKi<YjY4sr>
z7W;2sV2e_><v;HQx>sCb&etIySDq(*=`?f)nu2)2NH_HfO;{Tse&23Bxk7pHxHiiZ
z@t8N5D>pShsWZxar!mf;RlQ}ftJo};$n$C=kR_m8w{zw=<q+n!W!gm)Lt2+oBC(QK
z<d%lU!BPGCU1B2azsp{JRmp=AOc57&%tSZU@-SIx9yQf*X&@?gQvK!ICZH5GyHfZf
zda2T|`3vKjbT<Z`dj=AU5UFnzyFG{rZoOTn;?O<*N`h%;VY^@~QEpoMi3!*5iV_sa
z_x??5y@1XLPmEHEP0j=stD9NK$gh|ECw^cCJeWZ_3aTwUt`cgyD_xes^es&GTS8n0
zy?YPRTr-`93-oZ#%h-O}L%}YVrp5Ex&3F2&Z8~>?laz~_Cm;4`03-D4H<ztZ0S$x}
zq6UfS0u<nkt4bm+=sBKzA#21uWuap<i_`vNU8r)#E-e{p_|Im$5PR+X?>b=v9jSh>
zYhsiwK|~u$DPf$eAj*CY@mXs{RGU|e5^W~y+52HPW;kW2MJI{R_0h4~P4J}Qm@l%k
zi;jbFF+eS6>3ft`8b{yLLx=ya2}JAVUq2uLTEO`~Yr=nuMQ_MBY>1<Q|Mm3`>Gh?X
z_8zYLQ3M_2rj$qdrpba~2OBRMXu9{XqmlF@we7i%KXWi4=7dD%jgtjOuj{par@H&k
zXWb>jN^)CSrJ8r^CHuy}r|aV}0fFD-k~LQ5K*^eG*i-vk>5mEy4gp<0x6jhue7ljQ
zQ=qWjb}y`v{X;LlP5wXc=B+0&m%A<#dMnqNw=VTP28biwcI?MIm+m$?D~??b&0%M!
zP^o;*(N|aY-W%Q5_5#-%11~Od-CJz?<zF{-d<aWZOXl9~c3!-d-CZ3u+Zhw?C2mV^
zM`s@$-|Nk>0~g0j4~qP5TcxM{44LN@IR!S!pFeAEb$ZtSxKAB#y?8&rICpgUV=4GI
zGj1I=Z@?e>YrJ1Rv{b3TADzE`k6fDjwAN&G+^`qf+LoykY#4pi{g`Rl@xvds|9(~(
z=Os8lrF?p&d^)5YUViA>y6@WZf0oB2T8b&F^Yh|89{K9V&djXr_SStoe)wrya=fYA
zzOeJ|)_!;Ca{1c4a9d)rJ0Vv#u=F<Jl6O3*K#AHj(<zevkf4>z-HBFT7tTk}>*pRo
z8<{7IEY@vSqGLA<k7xTg9D>lqdaf54p4awo1mHT_@~;Iv1`L=cAriRYu%;5>B#ehH
zVLwPbB@pv)1jy|p2sDPIC~zE;KAL1B2m<D4ogg_(Ks2($y1VBW^&mJ5tztL`p-B<c
z;Uh@NF!_=wI2yB5g(@l;h9RpgG!nB`3Zp1=bb*noC=rPkYYJtc9xGflrD<{WFftkA
z@6dYWkgCBsj{>lxIY$11xMabMwm9>AF!FguaX?ElLo%sX7H3!rtpP<kF&rgLdO$Nm
zSl!r)Sqa413X4H$w1P<0vnzPWSX*2ctwC8<2bHWYEd?1hqzY{Tr(m$3F#$&+C{7Jj
zN+zlIUyPHo?0GnfrtCy`gs^<16`vAFlod9U(x?;@9Z|`D$N(TR;a2tklF33_Krz;)
zEioGuC88Mm6P$+eU*H4A+<;L5aEb8Ky0jR;r~o*!F*j|A$-i)y;52)qD>=Dtq0!1U
z4x*C(;P3tmzVpA}8HNCOgs4+2CZSQ&M+~w-7fo46#s~crK@-`>jI^jz403#g#M6M#
zc5oP}maVMGAQ=zY5=fj16h_jmCue3%b!a~F1yFcbXjVFnC{t(VePQT-o}ZyuYSZr&
z`pKJXQU;DaNQ$U|gdA)P@BpL}Nj9&TEJ)-DaS!O8a=}Z!KmxA@jh0}+s6eahC0il^
zAU?TXoSWEI=XS!BjvrSp!+4&WquKkACOZ=sAuN<L;Y%)U$izoN4g-ED>e(gQYYYJp
z35>N+w&p0D=43BG%0k_Yp!IRsb!mYB0WDroXcmBBurL}I#A)jy4hoz9r-$;nSRkMW
zZ0<eaiK3!{1R;Pd=s#p1T}1zP2f%GervFPdXB?D?4)H%joPo{?%1)4AurLEU$L&W*
z{{I_E3KD-rp=r%c2SxKKXA0ueQY8Lu5H;zeMOb+b8jAyXkGxaG2Q+kFT(Xc+Lsg-T
zwejoI;{RctVlW<w#h8f%z*YHShh#YRf9@Bo*9eBE*QG`LgOM1FKw>dsLj4DG$@8D<
z{(of5l_TlQl-hhlDr+u`Q-Lw6_KGhzDP9mfB^w~J6|^Rk)XmbUZy7izJ1Vjiw5FJJ
zWJyn}L>g@lf`5iGImpY@5sA@^4vgpu{ovV#w^GEF0c)}qJSW>Lq6d;+u8%f&RRCy>
z0@fCuWvL@+)hLN61KXoaIxj9G*v!~C=iio0o>2*J*ngVoLI7?fm6}DNZOzRmMTyvo
zMh6FZO_*6k0GzWu$;wW$V6d<NRw?7#)Hp4@J}v#9>3vY34opT5O-83N7U`o7GO{q(
z4g;h~)D%zhe;!a4vHO@Ar)kxth5XY)JVqFf1s0?6p9NpPQ42RR?=!{#h*?=CeFz0$
zs{l~wL0cgb>V41<Er2ZP2x>@L8YZo|(O@tUl{wKMt>$DuK#Q!owV{~)4;?Vg|9hPg
zgCRWGP#2Q@?_vqdsxa7@SWE_&7rDu=1ZR}!ua4`p*!Qa{ca+))%d41h=hpalK}nJ|
z{c0zF$m$jhjbils=V{sbH>wNYJMnUTn}fgI+xw-F=H+_F0@Hca0#CL78~gg}aXn9t
ze@6Gw(r=TNZ@1HYJ9aw(J?_uujvCw^y|nJT$Ght8On>129#dVw9J&cWfq){Rfq)Q!
zfPg$~8QdM5Y>XWoZ0J4gY=5UXC@cu#jpV*l)BDn&|F9c@`X!5|$107sdpozSS=?o_
zKHbNHs_K!KcL%fw`kQ4~BIq`d^nNEZKe`LHmTrJx(>8_G>U#a!;`yB4eWg5|ZAT<l
z3#%<igN?VuCfrenlir}*8WHoTM&6P#lFGe|g0s^4oOa&4q*k^`thJqXkUGH=U#-a;
z4>GY>*_0z)p^yogk^Y)h^khMkeIQvGEjXH6DY1U_Sz2_ZIzd6N<}i5dCt9c_t8S(q
zrrU%C?=%t7y(O&#0oxYgd`T%z%?QSQ5E6V)$71S${ypo#9A)=zE0c3Y22p0g6unDu
z^<V9Y$NA9mOl_;T&e2ySt|}oN{Z7I#_PmJ|F*xC>hp~rpvDBtQ|NK7@%PG27;cjXq
zp+1f0zcAR@7N=`cbt&w}5oBt!p0|vzq*-dL(I@6rJfLSApE)>5a?n?Hcuw4(yaoJn
zzFw)ns~_a`)C0|=5^Fl4&JpCf7#BA9Ww~+3rv3b#Db~FF?yk@!QQ}Bb6Del6$0iV^
z&GAf!!%W{gdK6+2lGA{VhYwfnFr1EvbY6hru~Fb%a_`hY`NFmGNMIPrd(#SyCW)|M
z4XfrDmyu+#4aW<O#zh!WfmoPuAQD*+dR2i+n2F7GhYWwb6~#g^hX&Axm#4iF#BqUv
z@eM_mS;1kCO1i}q)h#ytQolB2cm;VJP}HgN(5c)YHvODF-+ns6h78T`)U0=JZkoI!
z;Pt$Fb=gnd;}2an7TajkcElNvMAvCNlQYFoM-&^1EXVE_Rwn|HjzpKiO#cy8*NSjL
zp$;|$p(K7-AcRy#uCzFb<YaEB3>B!2A~u1?Odl&e8dB`sn&2e=SC|SqDS=Y?2uTG$
z1c{PD>7WYy%3p)|s#i-quUNF6)pLjM%AP|E?b)s8nMbFqMd7}lRIjc6qTCyHF@<vd
zh*Q9vWInG?l*vQ=Mq<8KeKaf6?YD{ppA!jI*b~ao_Wo7N!Bo_`&!_3TO2a)eME)Pr
z#Aepj47;<nyC@>Q!^$M1k{Ax{91fcIt6QER^9^Sl93MK_Z}9(aOJE79krZS=Kn8Un
zKxqH5C1*<`Co@wO7bh!w3+I0f>Qe9A9d#t(d)gp>Ag3d)F`{Zt2WgdU4>=b$^q17r
zt=Y6D&IU{&wi!Oe6$R)ncJDL<2yj0Q!`0MKT=2vI`%Ta0(&%032dvH(UxJxy>_^-|
z^x^mw+mnleyQ`Y(Qf<3;g}}#iq8J@(O@?~kth-%ue|$BO+6?w<5P!SP`N+tVf7~`s
zgRR&MO-6oYM{|yHb@g|*_e5BVS=e8-t@S3?$z~azx3{XzG;P(YIwfUSN^GXd0^@<)
zBg<ShW;HU0-{lp0i*E(-k`1+GXb;u-S-U6fE}7GkIwCRpFOy1*7fQtFJMHfxm38kT
z-tO}COG*R0k4Cv&?*sgI(R?$N>eIAIwuD`6qfX)yYBH+I%)gD~=o)G=VeJOgS=Z>%
zmM&u+@iky(L`p!a*;CO1%=X+hBVMXsZ4|a7EVjmUU@^(JqK;{vOEPR!$tfzYbJ}VR
zCTINi_0!5Xvngk`GI~Be_cLLSYo>eB-7G9B78a(iWp))GPbbbEbjpZ)($8-;NuJL{
zh?qn-d8!f;K<R)ywJW%4?6<mp9)EmnTu;>I2oAuawoF{(t6%ABw{mseoGf2EYY6LX
z@*s}ans+8-GGN&AheZlTzJDrQO`M)hIBcc%OwY)x?{vE|@Wa~06W2>JqsR~Mi=BUy
zPX{-%HVb^Oq=#hoM6N$er#J{CMu_e0igKT_F<^c7YdBOg<kkd%OFZMBA;J%!aVd>%
zm~0?koHlO1`(C+O%0PWN8+;%6dG}?fRc?CWL=N|-%SO)2jgLD_dnb7f-ToAnj(-*b
z<hdd`oFT{6R~V7xnw{1z6#;_?Cf=2#y+RLZhO15^r9z(`MCm4#I{nFveNO?cpQ`N0
zB&E!mQ?9Z&c_LzsZ0>UMQ!1p~C@mj&!b#Oe?8A+sC#&bFir1MRCpOvOvwCN|+>77)
zMj$E6O>&Nv1kw)iq}_U2VaFv`7I<rEqDM8iN1k+VOctw3;j*XIB);E$r*&q!L*cjr
zGiRXJNSU?*M~zar$I$o^vf}f7TZkOL%=d8%{CR@oaP7LKoI)nlDlF#Xxqd*RkznkX
z1b@mqB0g_ca$^|e^L3E2v1uRcSPHkcs_VwO<D|=?o$Vd_v{s(y*FEOdBAdH?|L1Ac
z*+b&%TI1oG*7KbRVN?3NKxIjdwc%AH*^sKpu;fWu0YPk7sBIG(v{3HDHPpMe83RRz
zev10NQ^V=uiM75wTNj?r)P(Y%)60j7?HIPMY^|k@DY#ViA;$=lHpH3zs{<M1UIu|0
z*{tT_q=a#DV2fjVWN*zjR^Vl{BS#ZoMZY<ky*8-(-mdpnmvMZShqL1r8u#z3ocF%$
zkLj)tAU~>^FGascG0&%tSIE*W=N`IEACTl@i|wfyUp?P9GOQxH4a2MBVbiXI;IVJo
zrIfK*SVs6ras90?tNbs+6+f}Y#phmmI$sKl6OxcQ#&lnbgCKiQ(7rI17vy#H0tdT&
z__z_O;y4;EWBg<Txg?9LI_78p+B$6Ywg;8RU37D-3Wn*v2l7x#VLGY9Q`hGa7E?`7
zFMU4G!QC71y2=mxcBfCa{jvU2_p7$bLyqgCS^@Lm4`!N@Vt+!5w6lJaIv-5l@yyCr
z1%p(J8qW|x_&TrM%*q?-!z*9H6fHSuIP)#qhNC>?*D1EVu8*gvxA5L<Qn2CR-H35_
z)Z}*o)oI?68n@xkBgexfgROJ|8qA)jtdYa_*}A`<RV)`&re=GkXKNgOWfm15PY5Rd
z--1s!bG{cpPNuVYRkAsGzL%mxBrtu$y>Hr`T-$l?X~N;SUwa}J1_B=LdbOUnF$IYX
z37^MT7P|%9bA5Guy?!AxeIHEs50Zg2bbt0aAY5$k^zc4Lpv(6SHo&Cm8p({A>AZ<f
z^%ZI5JT1a_%hGKWqUjl_G(}dgM^^u-UcIxcUKEy|z=g6ZE=Wm9b@eZ=%PM_ne7!nY
zIP0psS`?d6g(f@Cc@L4@@b>{WH;_hU0ZPg3QqS>)wydeSzk&lJ;fUbMOskd`$oj^v
zyJ30J%5H@=XGoWoEGGqWDVLPhALV-n>E&8AGDpeBrAmn=ABdNXRL5eW&6Lx4>h^vF
zPRoD-(xRkYKbtQ_4(JWCnzF?NwYW;uF<g^u{HrYqY?oD<^AmjWW8F6#sds?s7i<x;
z4J<hV&}x6nGq1=k`f6{7VO?)P>oGmOZYz)@WT1u$phCm6@aOoisASxk-a5wny|u#Q
z*v&TFd&JVM(+&N12T59W-#1UsE9}Mc54VBrZpb1~PuD0>%lBK^!y{0PAtdgdE#O>`
z0DHeDDZMn)jCr?a(Lms5i{54q*bIc^c(I=sr|0)QQz!)#J+w2Etp?lL!Xpe87~Q_A
zey*Nl9e-a-{i--7>iKO>a)S<k%CZq~$L*`0UF~b~CX9<3D|2R#a;l@+yUpY}Gw@RO
zbgRE6gM}PwH2$Sc!+bR4Ku1Pm^8ZXFK@&!T6>uN+eLNEc)Z_Xbk?|m$hqQbhtM*i!
zF2BDH!-~T6>sD(MdI)G*)I5CV`bnOXNjA>znU3VK>vZ_0qyGCv_$(6Bz7x~|dL4>w
zm+lD(&*m{T>~O`P?(e+sJ4ev4(9H@#VjkpR;emiFZAV^g=mis-3nA<`kT4F*pO1H<
zWjjk&i9We5!*_3@pR9Sh0EupSTWobWZ1Fr(uNcs7wnHT%bAqmpW&0}my5}Y*6!0)6
z&>-alpNEV8^7nacxvM;8OgmH9X*>3>^!aSRyCKe}!az8L#fTse$PmZrEUj{f7(*}}
z)BV15JiH&%9@taQ1ZM&Zp!uUwk3OY%SD^sa!edYilvek41i!En67dd%RpBrr+$#t1
zXkBpk9Jb`HV2D$1C>L2wBn)doSr^0!;{sA3p9Y2!v59BH^;6h8y@%zpyG>~Eu4Cce
z-5&noN9fAvL5Dl$tjyt<dtQGSkh%3|iCv(bVZQ3&tw;cjs8}BsFV8jGBkIYeNnP-F
zR_jKpij&Ei07W-Ar_$#Y9`<7PvFj(zjL%p*D71QQm&?v}u<~;lhvFbq9%=?LBKa2t
zf?Q7EcJryc62DQ}h}yzBITl4D>8At)^$OJDk$SS>Y-)}Aj$ELek<tD~aTL%b5$Oz7
z`<D<moEruX;Geu-mYOgUWo@M77$sED<;lu{O;ZnbPRDwOXC(eHDv40y#cwya&0q2H
zLHczHA+{=k28PmtCL5Zt(Or+jnK~P#v6!+V6!i>Y253`CnFLpl24A>$dSB-=_;`3p
zjh}0=Ph*gf2=I9Os~pehOn5B<VR8B^=e?*0Akz}Ppo&Cd6Q|rilQ_waW`IOdRh;g@
zokc}aEwN^fXv_Fsn3v1mgE?sew)0Y&$UtI-^;Azuh|OM3Zf2Qkt((6k{oVeq`a7e^
z2L}3XLMfjhod!+yUsRtxJR3R+@`U3AKppqw-m2!Plbl-!<UHBxh0Eov8=Ch9(r<bK
zqe3rY=~u*x659oGWaM@svV^mN<qJJ-rIH?b_~IC{-$yD3-|f?&uyuQ~`oDtj!ob#3
z!dESD7%Ua{Telt826Y)$Gt#4OdowWmykGE6@}lg^%l9psh9;^SW8`Xy##wq^HNT(W
zr;#r&w56Jzz_sVkjMvsczsN-PiT+|K4GsE$CYos+8y}+Tk0@OMH?~IW8DXuz0ROy<
z6mNF4=1tn-Xw}%}cv1Q`bR+oK=sEt&U;lT+iHnYv*;waW{3M%%8}BtB0?jLx->^wE
zLoPLG4F|*Iaz43=97i?VBSmkXeaAkN2Z<rXaqe$Z?q(DNuUV&uA28k>2k9M{mmp~R
zDtT_g>ThiY4|P@fadj!0)dsbfC~C|wA}BnyNh34WWarQl;3D9Ox|1lOq@Y8N^#-&f
zoL?_~ybm)G=QrO(NW85@js+m9)te3uC`C-}9d9QVc}ranG<IY-_Dg)MmMb`>UVDK7
z<u-t?`Q0%!7mHeHRV~=YOm)Ty3cg%i<MJc9T?J$022N^so6eFOud<JO>voRm#mg}B
zy8ogSb74H`BwQ5AP_sqi(m~Ocb!d7BRwOd%ew5rDcst<kjf2-QP95lXg08dspRy62
zikmZMY38)4`0o)FcEpa&l-nfB_`CYI37I21stiuGyAvtC;3*O`vfk7=eY$qZA%f-b
z9p`+936iWdi=VS_AwK!@LjAr7eE#NT^axn6f#|;GH}4Cx=v>u?Z(LQ;pjPlJo58n+
zJWtWM%bM7POUHv-Sa_SfRf*B9l-DJaP50Aldqg*cZ&<$V(Wqd!)&SmJ+9PUk5CKJw
z_l;%TWtv6c7E9xIFOf$tT+59$7QaYn-QtF_$;?ehx*ZSkxi>)};c5O^2_G35qdyv7
z&90|vG^iTF5Xt^C*fkt{RUZ!nb6#(N_`AfCL0ogB_Ay_*nt+|^;ppX{nuLHyZEumq
zCat3GFV@;8+@-6m0m4&kY%{GuQI@Tq{;W=l1-jfmaX4Q^4lWJ#(XFDTCk!q%gM_Wf
z(&34HRr@3oP6doaV+$km-tYY~OO><~)cKHNNVIUqDTRWMx4Mt9Zdy&cblOy>(RR+N
zqp_4PeYKWF(2|5>9ZuF81E=p^iXh*1qU3>nNLjUdHRm0Rm;$!cAF6crv!Aa%H77sS
z#`b-TI$!H|&bZ*1y$?*}ZTgfo$p-coJ$p(tO+K69-Ed6VL@{Q^W`{s$oEmHLxC+jK
z)WHY#C_;Tl=YpM3p>0n@`*8Npv_+b=Mk{sqwL~BbTT(0i8wP)*kK$z6hQj!~fDLCh
zI$Cd!m4~T@RQe8b_Oaby@AL|ppxHLMtscNg{|ePQ@N`~8`Ew^F#23%@5(sY<g6A+R
zxCMV7$26S`G=)cka0|m-7V{>_JUr!%D*TdVyf)G*#bbH$U6`?HGCW6AI?7a(R~ac~
z5g0%d$v+Ms#_I5c7Vj7)rXsRAHP=WhFHz+pX!v&zJL-3%VQfT_@hJAupJ_aB8)<zc
zh|70*r<@$O{w37(6rlkOegb9avLjD$>XnaC%CUCkgVCUo=3bKZNLSry@8#~cx;#*n
zcq`GVQxqB!8lFFTxlY&7XcEyT?=2VTZyc9uH&z=B$#{RMeS=jb+P9TZUj*xm#+n37
zcP=L_NfTfw3O7>*)v2&$M%=EF+~y6Morno|Q=+dA{G9H#I~t$9_wWbd@26M=PH|Zx
ztqr!79u$6j23I_r!B5rEik%ajOnCNChw#S*q*FwzPVvieiTMdDwYpe)bAN5eASGo5
z!0;R<#!H&kb{5anOTsfc`PxeGVx$oJY8$oQDpVR)5+n&iAt7k{x**pmINF+^`N-{r
z7cTsbbBUKE%R?+yotLM3nx)^G^MJsa3T&z)G;EQpD{4r()_t$XGLr2!T)Rt<Uq21R
z1DgfveDH;MEc}yd3g(sXkHVMg90^)Grmb|9Ch3y>aBg`M@G0|_tbB{+0{3Z^p&LLo
z-{fa3H9rH5I#_!o_E{bM`+;*XJV6B;mFk+9cuG&pc_0)xKVwZ}K5H&$o5Rf->n2=R
zSvF5$$@D3$LQD1R;Nt||C<%tFV1$~FN=ExS@kdAAoF|Ex6oIN_CqiwLr-;TOa{32e
ziLew~xIQ_P`$$K)#3-YzL@m59J_Lfh8SAa;A0yT#`(@TD^vWi*Sfu;%998F->Tx!l
zmG#``>%Cwtm4QJKk0^ZgPfs`5`ghx<2D&#DbCUv-JdF0;eAx?24KL|Lrq4?AYtzJ2
z1BuJ*sTfX-so-MM1f8X_AF${~O;slc>``U+)ywn{!la8Zzthev5Wr4Lg+19I9jl6u
zhDI9SNB&o3XB`$**ZqBJ2odQH>5vWy>24{hLFu8pr9oooMv#<L>F$=65@`gaL5U#+
z1b+vgxSyM6-uL~zGuO3e|8e$b&R*xc*4gJ=d+i+r)o_P_CTzk3OeD`aPbzg3ktbE0
z&T&Wxdy@w%u0hpebW!78v=oZJBFGyN>Z{pt4hryJkkj{*7QInZiHJMVn5P~J@_JDY
z64uYx<2$*`DILK9y%Ux~iRfL9WB3fqa;{7{X;9BLo}_%+*1s-#Rk;52V0rx4j8W>=
z=D^z?IlLW{((}1Fj&@^tX8fn-H?^U7s8#M&+ql)qAKr0l@2FJYL}8l<pFb2?46xf<
zFI=Eji!A!y;r6Q4OA!Bbz#w1GYzO)Ut4YZO$F}Au5sRR?r_Jz<a<a$Ps?~LvLR{q+
zg_e_fKOb*2A*iO`ajVO*<VFMel)Sh+{@_r|7Ur^VhmM1mW@?tqcS#JbfhQUPf?DXJ
z0fG#6JZ{N}DXbn`>_$8j+15L6`k@VL+|7=O`1VI-K8!+HD|SbHlSB7yHr@nEiM#`+
z?|{lw(4Mj4Yv$JRq}>0Ya~52tf}+j329vObNTl#65n=GRYBCn)K7!DWE2T$*v{-$5
zo-r<j$Y&7h6d~KNO0o*HYu1x1dSGj#f|-(nUf`?3Qe6bD!d|Lk=85&MtZR!ontr@`
ze@@CPAt9^_Bfg6HWyh?@dC|5*C=L_&-LiG~?Uf2sYt9Ja_FTMr&&<k(F0Zf@U1*Yd
zON{99YCkuwuFTl<5W~-kgvaY0^Nna&FE-v$>AF(&E~ZnkBvJol>9Mba6jTzZVeT>^
z^7b`ePN+oE59v4My}Z(2cgt?|IvQOV1N&Ac%lenRx6KrNuOPTO^8Imw7Vk{fTgG$@
z%lWrqJmH=cw#AHD4&f9#ewP7{3->6rC+gqtil~+#qS_V+Q^6+qyX;;^)sr!Zo5rN>
z;y6ElYClHezos`?*)w$*o-@4ry#KUnk083HOR1t&Ic~7P(#3b``<q`wSKG5!Uqm@~
z9N9(n%TUu}i<3xMnqABC=bxw69oLt#PtH3_FH;F+EYv2x`l$JYBEr=uOm=e6>B(po
zcJL)P3x%2sT3mj*xnNHY6H+{WRJa*lxW6e&=Yj?<b0p$r1ne{@+g$URxU`O@koUZ}
zRc7a_KCf}XLrVi#u5(~W5Lyf@mz#=jQ<s-#(MAsKmn-Tu@8wo!3(CnDA|C3c<;mD~
zPDVSFg)rpd6(8gm&W5f=UBWnb&Iz-!OCb8twQE#u`C_$J2L*lb2fhU~`%mJe=&E$I
z9J=ns3hl|74M`%=Xx4aL=QpxcNKEhF%d5~8gQrag5hl3xr>BzY*<6t-wf*`ZMEOC@
zCqXpMgmrq=7uavC5=L;XJ_sQ*=0D+3*!7fRnO#kca}lzSGu`S7dnOw2Y{dBjQ_s`5
zv1t+GrMl>(AcMo}wp3kvhJMJ5F{H?bbY5_9vM^x2Ic&5z>`;$+NTw^YGafxrppr+v
zLCp2pDW_QP8YpGBx=TsP_YzA-onU?UaC-$m+3OX4;o>29t;TGCO#?J|+IjT(ho#)C
zvK=BS5`jaUWxO9>ALq-cVq3noRBTDNWy9yFFRlm<FVsZd!}Qhlf+{i<&-g=spT!ae
zdmil!@MAu8jWBe{%}=C@6I`dF(tp3la)pI-PoA>pTeDUC03MB3u!*J(J8ns?^U0v{
zM`4-jZx@fN6(l;`mBt|Ct}YkM`8w*pUWHdqGpnveKSCAgl#ycm*hUZ2FMS^oRP^e&
zVi!flHPM@<K9*cc0aK$rDn+(X|F-Nb>$<|;L^QvLzQ-OtGdsXeQSmN_M$X+QhR=0W
zS5)USiQ?GgW*YRut|G!ePh;=#gi_3cDNYQhMB%Rcm8%fi50Wo<kPNU!278gEK`oU_
z?OCIsp37OHDqXeWf}t`W@v{tY!dSx$!l0kFZP3Cyum+}lG(S`ShaWx$)kZ0fjwMWq
zR%N2)=7Upidyh5LXlLrX4~jWj{U4R8)>)F|Bcs|sl-1m;gE?d6)w6IEj--nKV-SJP
z#U`68FS{}>(_uQ4mWW|_zI*NKB7@1>y^<791{D)T5INo`TE0@#jcw2Cvq>v=8!D!(
zAk0a?vpvA{@CBdb@j#QGg-UB)DXc#$S<_OG5^$b8N;91x&j6-M$~2k%FlBrqrV&~9
zM$b)_Jf(j}^l`OA8ijsLRmNE50Qb^nVh=-$I<U(Wl2JAF3FpHJ*@&A~&HGV_qdZ+h
z5=YFBy^ktQFCqj4Hn;n)Up=0~{t{d``1)A~;wF?GpBRhy2R?{eUclGOh}wGIJn`3v
zyspB&z(Yz_E0F_{h<VhMY&Dh_hAD0C$RD<S6*wXrc6g+QLs8Y~l`{_$DOrh8Cr{NQ
zvvm?&gJr@`4@V~Ks+1BpyL4;JxY-1vDr1?+E%pY4IsG)LKUwPwYs{Fo$V8Hq10
zZP!vh%{QWuO3Evx4lWu4A@aTC7@!4{r~U*<+KiBW_vIVGY=oF}Hj+q9wuYN_T~X{4
z9Z%Kl5xsgM;yU;4!g!AS1!f&g^_RZE>`JwXcjAc#q=SJ$AJt&j67%P$EG)T?o{#&A
zS9l)=U;N4_T|s$Q;x&(vm@=ImbvhtC%cx0ilE~oyty3J`h@;)mdV7)QkptyneVD&3
zhL$dAP&rMb9ic!uGrb+<UfsQQaGzCKcSWp>4kgALaG!LUbk;_Gnl=hEYour@25V{@
z2^fT2<|H;pyIq0kRFyD6I7v_%Bajtluf1>U_CT|7$U&QeAW&O8ZQiZ<xyreb0*@u^
zgQ>j`4^wb+U5ZKvp>HU}U~B1EPiXgj;{jNtm&P9&EtDyXqIA~VyGFc`efAt1L9FoI
z=O`U8-VX6e0^9g1Pe3Yx&^HZc8qQY?=%UI+b=aLxni@J=UVf1BzzlKf#1>=2KtbtD
z55}{cMa#$V^%vc#sg#K?%Mkrt3W5cfF4TQx5FbYb`R}T<n)&GlfUK4q_E*pPjz%6I
z^bF+Z)y;*?u?-z8p{U6aQ*%}Q3`L1L;6U?}X<+u^-IRzTMTWjvv|dM(E?cuPB$5w1
zJ@EERplt+cpsN@z_MDtozEq*O)<Ce|{`lZX=xY<-hH3UqF=w}k&BX|IT+Yp8fkmUi
zto<@qmuF0EuRyby&h!L3L?-3BAq0a#OjFxdH^^x=RG$~S%BhgxXPF(jv+VHj&0gKi
zexin(M{!s#=-%{8nhGmWec#L9b;>qiKTxfAYFRXS3CZ@oz7_k$?0AFK(0LTYqO9h6
z4zsE6jb=?2vr46oX38iMoWn4)HxSk$N<7rz581@TvnL_AZG(#OIcZrJNZPP6jauzx
z9^_!b$!G3C;{&!QQ9YYTE|htdGQU_%p)bgu18?8Xi#c0a`}f7fMmgTlLSIvue9~WA
zh)J{)>diCFrVVJ9=OE1&V5nJ02*_#C^LL+Wa~aLLY`Q$Gy1I6C878+)*3LhVeF4T&
zO=%Ht8CxpPDoQ!6Ti;!e(D#_y^5Dng6zCb*!ffc!XMlwedGNM)1{BV?SlP#@T(@01
z*x1K-5!>8cn{4#e5Vj9ERMEZWn19p~=~Ktav4k@!n;Ypb^3e!Uz6e33gBDHIz~XoL
zSLKBO^S~&{m{zj9sI^}k3hUO;%oFY7w-kyZquOsblR_{}f+<Gw7#7?0hBeIbMr!g8
zh=l9ytC9{*Umdz!Q~Q3%&!IuNPILEsnI3&lt?&F1uP}^Kj*qA$Abeta?i3<+o-3aU
za|PD#Go!-*mXzxp1J(e<4v{7&e9)_z5s{7_?yUw!4@aWEA0mw&j`N@nI~>^Y9)svp
zH<uIZ^3N8P*vgk2!6#2QA1yp_Tz<mmq1c@8*vu_Cf>U*oiWkR1xIDHnF&@hsGxs$}
zI#Mp8$hBu%<$Hv=JiGh(u@@gV6A?qHrM##p(Ud*5FrAigf1{2vy~3%aPd=FFz$&#m
z_o``sb&r{lfu}~gOWB*38~@eor6eL$PGHo4%1P2{d>Gt?d0RQD&asX8il^zqTUENy
zugb688cw5hpol4*jDUeGO>kd>OQs74bX)PB8)GNVv-=Pla9;zdD1amnMHvhf3M3?X
z#?WAzdtuDCmCwWe4ox@^EkC^=8l}z?Z0Tg<zrpk?a2Qgkr%kN;Hn7Nx3h>B9;-L^C
z<cPuqX?xU}nl(?cc!dI|Z&V!&7__`F1HAj({Ef9-AJOBvxIT8`AWKI-2qg(LnfsWq
zJ?ECLs@&AWTEDYx!DH5F8s&8F8$tK`7@GSbTIj_%Ps?oI^qv$cB}eNQ<36CFkP@ur
z4heEX|Ay23)*ZM7<>iyhxHX>*3L$^mRU|hw{%#<%b-eE4;nJ3@3zc(}9rlE&f~uS@
zIE*jDy&mg*mTD!VHla3@ZH@FI#D2aSq%7ie(eIN#jm{b|$iNlfDS=cN8YFWV5)_1j
zibtZb;vUs?wi1EveTbllDe46b<)|n`1-+e~-+SHz2GdIGSp01IGEvv5N3U&w`6DfD
z)*`^Lig0W;LBlq(jOUe1QRTTrz4limBeA>&@z&HfrHGHF6<_zGV&heUd}%DVqD>=I
zg3CQ0l`SBcJ>x#!g|1rFFZPPbKNA*^D@IZskiFTp5?BwnV1CK}Ivp18ep<kul<43=
zNb@;S-^gWwa?pElhc&%VL6S~KW^ijG50Zo8xC!HYW7v`oo@ObAI?|XShquZ|QQC;7
zM$)uP_*RYnL~@lxg~;OqCHuSH=kbmCB+svVD0_hmJVS>}fB$*hM=!*+Q1`DI(HtCA
zgGDB+n=DP{devZx{SzjdjG-l(eW}IJMoj0KJ{;6lj*l;(EpME3!^P5}?k598{yag`
zWa8-(xs=bZrE@9StZBv{#B<?T(T&UH#=OTDctjCt|6#;6M7oWMJwzIiaW~DaYc<#G
zlN@aG;FJrWRoC^k!1(X;!W=|GR>+@&(Yt_?3Ryw#!VRu)JUcS4PVzvnd2M!fgs?U>
z0=mJiILofZsX$dAf$HK`&>FsINS0O1dnlS%4IH(WC`i@YD`5)Etw4^rbsW4~#{sUZ
zG4(`B4U=Xv(!<ZMQPp$Qc;+S?xOhn|7#B!5(0G$fYH<LYSkdTx?zW<l=<c*a%m+mi
zO$+eqvq_#)DSa><?(Y}AU$2>Q?;-W9RAs0!X4f=ejbL^Z1N8dlYQ7AGK4)!w-N!%?
z<Z+lDA<=SP5Go-o(Jhf1BS9W?cIp31{x~5agD9}XERw(4a2Ao%TcVTL&4PC2yQnqI
z3MOE(Lz)%o&Tx#G!|&BG#$~YYJSg*BQ{q68NQATpcy$mzl0C}&_m=AUcl3J;XeuRP
z)>D8TLeinSK5Ag7E?~8fCAT*5*cq^wpS)g8STL-g_QLNEGhtl%7=+{dN*R;pR?#>V
zG=frx`<WxTmgM|gDE&30ZNX%?!E`9{=&_%r(5WO$sBfz{zF9TC8h$@?QY&IDTF{#l
zdg##5>v8O8X6H$|CH~kzhuFczpr3WBz$*D2rD0bf6Vr`V@vGr_^04$qyQqYZsIQ5D
z!~i^0IXn_YWBQ4=3P{)jC)JX&$*m@75zM3-N5BDj>p<T$c=F6;2JLe=i86Vh9w*2h
zxd!ASkid6n8rXT+KxmK=g?i(hmb%h%&~mn}=IY*OM-oHvMgNI&Xn)^?`qplN6`1`>
z<o>S*aka)|<Cg}X+lwJZGU<~W#1%Y=beRrF5|b=4pCr}6B$(P?Dfe~FNgpuH(NW~5
zXjz}74AaC2(Ud$|LNC0H{F>;6I7;lHnr=&gw_)`BRzUiR+aJ6MX<pahVI!>4?X1*|
z+%(!Kc9*ZxwR7I7QWh#rtjZ>lqfOe5Fe&gcBOx$#`~_6ZNz%nVNWMNjmE62vblEAI
z9>|S<ZVudF8sl-OO;)6kIOtcTq;$FR2?}QrlG^#8ORjQNGTz^Pp-)@7WFDq%o0&Cc
zLh?YZ!sNGVR0or=qo|RPup8F~PDs6;zS3%|R3Fu(vwLR(6(g6uA4x*M&8&pUZM6~-
zbXzqYKfSi&OV}--%$ux>%N(znO5$&oxQd64ZcSyHB*tmAN%48Jc9%H671-5Ir7^@x
zy8(*S|Mab1d?K%IBsD!0q%sD2l}P9Wk{l*8do&Re)BR{7E^w!niJxvm5~cgM#^#uk
z1wew`Dj!P#NB>v?T=Z4#TRF}M=t~#0r$sf@;(CG-)1fUu|Di2_nQ!9=j%OL~z7j1E
zUkI%%X!mykSJ=M?xPs?x$eDU8GS8)LTTDP0(?s=#WBQTRQ+cc)B){mHIJQ2si4pVJ
z=IBTP;?7+jaE$$jkH}D+TQ|@F+(4!Ts)JkR@ooBbc2h8@1IW&g<LdYx7DLRhdl(9n
z0&bIQp@8VtK+(iphF0!n1r0DGx7yPiB^KFrrDnAKIF|W=X7<C?Dm0WZL`z1b9w3q+
z_1wB34U#lU*jL40IX|{f-!&pdO_Lpq0|Br61}Ff_S)nPApx5F8!Ow6jWh!=)xciq{
z+HVY)jYL|6R~--%ydDD~;r3Pp+kLV&b@I?1FV}zXQ8o$?3l#n<7R<a=8=4NN5lhuy
zEH!EtHqw%E#Oxr?IF0yHba_^cPfZh%qfA32#}@rrij6|Vg!;Cs=k<bEd@{p^vyqNU
z1XmK9irV@u8g@L__^W(0dF=LfDvA*t??Wth_LCLh5_vnFtZa9+96@Xz$)fgt2g`f5
zm_~(1HuFW-(qBvVY}c^)oZnq-?lodEn<f$hLNY1>0@gn#R=K^jgZ!CMm8HF4v&e<x
zcc6>jCJ>wD*1}RRO{T|OTNsaZqFoO$$c;)^FUzVpP-y4)u^R8EHxfOX*<?lEAD6YV
zEmLQr#3<O>)C(PYPN<@T;V()hcEHV(IuPu{U>)pZb7*$S!e762Qdsnb);ONAtFCUO
zftu^3Du`R)!&^KLr9x0u?(QS5n4$u%QN=^*=C-e(V6KSC#%G_&l1p^vQI=!E`1l>S
zWdsWdSE*xMdsF0ywrQ{(6J*8_VJd>de6D?o=zUjR6hg1YtUh8erg-!jL%Dugc5Uc2
z58?Te1Z*MZ@X`G;ZRFiN*R53CCPu!BK0Y=KqKP3lWuH1ixJR~Owk$z`vBf{`wTRmM
zxd1z#^T3lUvZfoNAzI->wBNBL{)1AL-+@biJeCM!>8sBf;Tpv-r@C2@8zQfeHtDy)
z<i5;QqQ%E0HVxpZMv@^gg9J0l`(*k>P@2ee_Q05Zu>IbagCNdl@Z)Ux6$!d4#_4?D
zdl~ATD*6tlXtNt&IYe->)~FH1<g&}Y7P{|?2y@m4-8X?cJ@y`2yb<Gz8WdKjy|9Wo
z)P2Ieui;i2x}(2lT6=nh!9L+p0<@|<SFgx+$sZr;*B&g{Pvi)e6y$124;18qt<O+p
z_ANGyb9<D>Q)cj^%aa=tR>C!1^25Ix*y-=PrIAM8SbwIlwk-bUG>E!(Q5v>lhho9%
zGNv3H&?1ml!7~c(V^1QEeJB{^AoQ}sRuNV0TAyHr*-8=Y5O-`5OngDiuE$Dc@#Ue1
zriTpsk(y^fch;EkMRvj6)sjgr<(^f75D+xU5fJeIAwD-Nh&_b!Ps#mfQlGwR+=2{A
z`!TCrdqXU~@JRWaGXA-O(7pPSueI;`BSfo;NqtJw2OV6cfql|2G;oON9Vl?r-={Pt
z8`Y?z$nF}goXRJ{EUHK9qY&zZ=(AzR{sBKJw|48$xTWP~6o!)OH=dX4L+Qn^t?=s0
zgkRkhriK=DD+ZFPDJ;CfvwpE~x$<b~8Eymy(vghAYCR!Kio<;Ui3$1eum}UjBDpiJ
z8Aus-KB%+5li$LlO~-bgyC@<Qj{<pSAs_b?gUp<*tc>)S>Q#lzpk0sU>i8JLE`bm~
ziSS%p<`4(|HhN7x$OXw?gc>_JlqB_@Lv0!Ors_vo$yp}!Jz*``3-RB{ZVZxK<y&sF
z6r&hf?Jdp_%h3+QL!-V^?>2|A^y6W~+4C+<ON{Sl22U;fw2%p354W~FuGrLpk^Sz&
z^Ut5$@ggVmH4E~5eOLyb{93MixQ}$e{(X6F-y?&twV_ks_2D%uxoSh?m?Uogpch6~
zuPar$kom_sEV@?E;WQf}5wpQ?d9av9i3@w*dDAvBH8zJ1pQO#3MBFpPnO>N>dL~9^
z28yj`B)buZJ)}DR1f;6HaLL@Oj*B@^vL)W?eM8XZeY3v)ttKg4JV(Ua?dTAge2JAA
z^5om_f!Ocw8EWG>Y8`$TKb3h6cYiMX|2mm50+I$&9{9qhl9qEsU&2l;1AKqaA}kYm
zz3V~aW5oMP+rJ&yZ=4~CKpJ_hai3O&l|T@w0C84J1LS2JnT|0-qrLT&a2!FU^Lx@2
z;R|d!ZjCPpi!rPBoZ?)kzja%UIxs2=SSE&8d^62kd%z{eGq|69&)zXnict%H*g@uz
z%|0)b|AC?u!O%X8n+CPoCt2rLv%Fsy!$TIgxV#5Na<A`itEWdejFYVLJZ3?ETmIAH
zfMeIm!n8v=_Jaa5`X?1OjFLv!lWb-R^2dGLlL-P<kt#}5PeYBI8=v9q#B;@ZBPM*7
zaWzn3-Q73cmg%cJsIq=8dr!8Xab5LOQ|#imHHVP3FYkC&X(_MXQb<Rd){doUU>KIg
z+hI9(4h}gj7s_N+lpc(8@h~ZPSkexazu4*ERvoqJi<T1bUyimswD;mmS6X$$Gz`6Z
z$iGA>qIia}etFe?)qc<(<>#r*Ua??Lj5R&IwVG+v>Y_lU(f42~IU$3`aRe{<!DVGS
zr%T?2O17Mneq_mtRM4?4edA@?hi$HI7O1le##=W1aJ<6j-HM&yL1FQynp|Sb#}<|n
z5@vP%uS{Fs=3s5v9ceSWOU6WZHFuNgE<H`tLYPV3^s=yCO8;y(lA(@;ZiyC9tj{SU
z-DfNp{OJG$>{rDhBE!>-$YQomg5^wR+gx_)U19y1pUjcTK8t#1b&+tj6%(py&!TkZ
zB2-<_EY+WzqI=G^zE*1=W1JW~EC}-Fv6V;*Ra`jIwjQ#Lx~T2itaY<t#VUs?ggz72
zlLKk{+n(*x>u(#KFMh%%HVb@9URErdzws*yJX<WSEJwFmLMR*sc^RihfE%vi6dh(q
z`+#eEk7$li9b+u|(vBuq>MIZILyD13*N!e9#N9YmuJMN=JNp?(q$B%#d<Ea>55ne-
zw=6N3e7!!Ns)IblebaLB58oNz$030T&DS@o<A!r2%Y8Y(B%yH8&m|779(X3j=Cho+
zqZCWzSF)nP*TkiX2CPFZRjidjZElp}(H@qrHIq}pD+kF*FJYZr^;C#OCpVv3`1GSe
zo$otiA)U+OPVQXME?L<1@5A-A@-*L3Dr}<Q#baPm=IN6<`L4c&_fDho_FwIszZzU=
zWORQ+h8T@EzCWBZZKpg$hKjvWOGd|oX_l~cTx{aFIav2WN^j=4ZE%C9BfX5)58n&5
zRCUi;M)|l}`k)&5Shma?a%dO`53H9Iif8{k6dPCydi6PkMZZ<m8$o_#{|6`XiW#Ru
z!wu@+r)|G~82W?}NHA3gMi{t2fH!wEQ+IK6a^*C0bb;K4_pHQ`r#)OaAqOI|>prXW
zg;22KBgEYZB?STv=b9h(Hn_hB_zPb8EEcF5urS4bPrvr?*f4z=uX=(xjZvnQ%)k;U
z!95cCLHVRgzc-HACHv7+^0HhRO2OLF{d*SZlSE6U{Kjnv#GrVWkaWDgHUSi~{xj<L
z%E8hg=i;&gvE=%`uxdvz^62CVqVi#~mKqF~BqIU(RAE%E;G#+ud*!|~GG4N$pfZmy
z%)9clD*wq)iq^el(zM#_-U&Y^Q@(opjM|zdvLj2c7Jp!v6chR+I}-83y;1ZUiMD#}
zpo%D`#;_+H515uPR@7dMGc7%hy6@MSj}v&`d2DFw#|5NDN;`Y=STL)9&NQiT-T&!P
z?~L=h>TeLUn)HpT2y)nBLr(4`^52d68;AO|9x&(=V4ne;|1_$JlhYrY>Wn$!NfNYQ
z>8hM9aj56k>(|qKnU{-^u@Y6Yd<gl$Q<F}r05jLD6J>rUS_{j?H4~X5!{+ZY`mI7d
z6!5K*K#3hMb%bK6^`gCDxjp@*V_9KVV$>sQ`VBUSj3pf^l3b(ooX(KmSjDGBzW8Tp
zLbDt9HRT8ks?3)wtAl;02|y8UD2!Ti8Z3?zd<-m77{mH)pH7s5qVROQAJwZEGOHsE
zXC^CmCX+_VBr^VBHhv(;yF{Hk5!I-tF^TFfxU-u?e(|ArZBA$Y__<Q$=ZDtI`7%y}
znD@TU)2x6u5AzC<Hv*GE+S<aV={;Jk@|BpRl(QVhy1@{`C#Bk*Uo#=xgrDml*;FCP
zI0w=DmDUjPjx(l?rzG(_(o_GGJn`z3F=)?Q6XS}8c%d3Sw*c}WGe{_!vfg?zmK_D%
z{)OxtWQO_n58P@gm`DCJQK4iEFHQ7ZbGu12=Y&M|`C{jR6qDZ<PfA^l>uj0)&1Nbd
zx}WXd+#FB0=+c>#Sz`U(2!{oZb{!l~CUK_;Q<F484->;d)P@q+Tnn-JnMj<$PUuff
z?>%+7H~Nbp)9ObsK^U(9h)E2@#2q^+n=2T3b*j}imxfodC?<B&5xq2WLiP>mNzBaN
z{1OO4&!M#xVwg6aG`7{!(MJ)VauU)hVU5JVs702W#4JSWP1k5>67nhk0!QlP0@~NT
zvUP&~D(*WjYR<S>H~aZ^fFq%++`~t|{f<lZSzX@Gqb&=^T%Rozw+Z}Iec|+=f4#n+
zjRjr#lhc`kqp5zNYeoU7M@iyP!a&WY!0(YLH;*#ytMwUi!;<yu#9wN-qi(L9z&a9W
z(=UeVH=18>4eLpEz@EE<oARD!=KD<La$`|Ue<)w>-dp9B{Z!w%V^+@Twy-XDpxYVS
zXF+#~(QLMCng064@(rfCG9nTI@@;MhAZrA1gp|Dnqgo(zyaEP>w`0S9eFB4SYX;Je
z4sH+!H=}1Sogl6+Ze@QLaFnAszXKeq47dvBzgh#ofk7Jp*2o27=gP@(Ti$KhY7}r2
zbsMzs5D>`z*6<ua0a;xCX#1bJTyQx)#iLbiz+)9A69NLs-#E=czWqP5!Cb8%5I0xO
zKR<s4ym!yW!`bOEG4Q`Z0O{|PGN4y*C_M0tfgpSg9R>cC5{SZor(6P0eQ+qe@F)&!
zomc_Dc)g7DF69QW6&wm5Jc<r>MP)Z|p<_MnQfh!xgF|`z|3@idhfDdh?aE#2{-4h!
zUkWbe&&uondrF2bT*{wC75?{>Bs;j2KMDE&Hwti>{{0CIiUK?bj&-@Y{$J+(J0>I*
zJ_fFO|I@yI$M}`N$H0~Egs1MFCEx_uKq}?mF&>@pF>v+Ewc#R32w=tm4gVcO&;uU>
zSHSpA*DPnZ0RnKzzhjJh;bY(`ctf*qCmFynBHzWt^ux!%m2gJ`xs5Gc+vp9#$H3Jv
zaysUg9bC-iFnkPL5pxWvnUw>bI{dFrWsSnez*RBPo4s=QoeCa@i{XK*VlipOXdAel
zqMwA1fve(0=xhc2v+13JkAbUVBB+ixe2nERd<<L_7Y(|+bb#9_j0N}@xGK({ncHWV
zK|qMwM7*Qo@~`kQa8-PF$E$w@oWLMFT10s9<{$fC-3?oJcfI%vqx}dz2Cj<lu4wZY
zrc(|+2Cj<lE{F0LW=H`(2Cj<lW`O^Np;G@h=3n{XcP(-^<@K+|Hd=og|5pO+UBcaW
zyMGaSy#7J>_nY3kP4B*$`>Uyh&!47u-_zX%+<o%<3qTWu_}|ZgcbngR#`&wcNAQ0%
b|K}5rx-tj|#Xuwlz9RP!5Wt~81VZ>9Im6ZG

literal 0
HcmV?d00001

diff --git a/applications/ColossalChat/mstt_advisor_20250519174404.html b/applications/ColossalChat/mstt_advisor_20250519174404.html
new file mode 100644
index 000000000000..028ccc63e770
--- /dev/null
+++ b/applications/ColossalChat/mstt_advisor_20250519174404.html
@@ -0,0 +1,7585 @@
+<!DOCTYPE html>
+<html>
+<head>
+    <meta charset="UTF-8">
+    <style>
+    html, body {
+      margin: 0;
+      padding: 0;
+      background-color: #f7f6f6;
+      font-family: "Roboto", sans-serif;
+      color: #333333;
+    }
+    .separator {
+            height: 2px;
+            background-image: linear-gradient(to right, #999, #ddd, #999);
+            background-size: 100% 1px;
+            background-repeat: no-repeat;
+            background-position: center;
+            margin: 20px 0;
+        }
+
+    body {
+      display: flex;
+      justify-content: center;
+      align-items: center;
+      margin: 0;
+      padding-bottom: 15px;
+    }
+
+    .content {
+      min-height: calc(100vh - 60px);
+      width: 80%;
+    }
+
+    .collapsible-header {
+      cursor: pointer;
+      font-family: "Roboto", Arial, sans-serif;
+      background-color: #dbd9d9;
+      padding: 15px;
+      border-radius: 4px;
+      box-shadow: 2px 4px 4px rgba(0, 0, 0, 0.2);
+    }
+    .collapsible-header:hover {
+      background-color: #dddbdb;
+      transform: scale(1.02);
+    }
+
+    .collapsible-content {
+      display: none;
+      padding: 12px;
+    }
+    .collapsible-header.opened {
+      background-color: #333333;
+      color: #dbd9d9;
+    }
+    div{margin:5px;
+        border:0;
+        padding:0;}
+    h2 {
+      margin:10px;
+      border:0;
+      padding:0;}
+    h1 {
+      text-align: center;
+      color: #333;
+      margin-top: 10px;
+      font-family: "Roboto", Arial, sans-serif;
+      font-size: 25px;
+      letter-spacing: 2px;
+      padding-bottom: 20px;
+      border-bottom: 1px solid #ddd;
+    }
+
+    table {
+      width: 100%;
+      table-layout: fixed;
+      border-collapse: collapse;
+      margin-top: 2px;
+      margin-bottom: 5px;
+    }
+
+    th, td {
+      padding: 10px;
+      word-wrap: break-word;
+      word-break: break-all;
+      white-space: normal;
+      border: 1px solid rgb(170, 169, 169);
+      text-align: left;
+    }
+
+    th {
+      background-color: #d1d0d0;
+      color: #000000;
+      font-weight: bold;
+      text-align: center;
+    }
+
+    tr:nth-child(even) {
+      background-color: #e7e7e7;
+    }
+
+    tr:hover {
+      background-color: #acaaaa;
+    }
+    .footer {
+      text-align: center;
+      position: fixed;
+      bottom: 0;
+      margin: 0;
+      letter-spacing: 1px;
+      left: 0;
+      width: 100%;
+      padding: 2px 0;
+      color: #777;
+      height: 35px;
+      background-color: #f7f6f6;
+      border-top: 1px solid #ddd;
+      opacity: 1;
+    }
+    #timeline_api_stack {
+      font-size: 15px;
+      color: #004a8f;
+    }
+    #timeline_api_instruction {
+      padding-left:5px;
+    }
+    .non-stack-api-box {
+      cursor: pointer;
+      font-family: "Roboto", Arial, sans-serif;
+      background-color: #dbd9d9;
+      padding: 15px;
+      border-radius: 4px;
+      box-shadow: 2px 4px 4px rgba(0, 0, 0, 0.2);
+    }
+  </style>
+</head>
+<body>
+
+<div class="content">
+<h1><b>Performance Optimization Suggestions</b></h1>
+
+<div style="display: flex; align-items: center;">
+  <span style="color: black; font-weight: bold">Optimization Priority: </span>
+  <div style="width: 20px; height: 20px; background-color: #B5495B; margin-right: 10px;"></div>
+  <span style="color: #B5495B;">High</span>
+  <div style="width: 20px; height: 20px; background-color: #fcaf17; margin: 0 10px;"></div>
+  <span style="color: #fcaf17;">Medium</span>
+  <div style="width: 20px; height: 20px; background-color: #65c294; margin-right: 10px;"></div>
+  <span style="color: #65c294;">Low</span>
+</div>
+
+
+    
+    <div class="collapsible">
+        <h2 class="collapsible-header">overall</h2>
+        <div class="collapsible-content">
+            
+            <div class="collapsible">
+    <h2 class="collapsible-header">Environment Variable Issues</h2>
+    <div class="collapsible-content">
+        <table>
+            <tr>
+                
+                <th>Environment</th>
+                
+                <th>Value</th>
+                
+                <th>Description</th>
+                
+                <th>Suggestion</th>
+                
+            </tr>
+            <tr>
+                
+                <tr>
+                    
+                    <td>ACLNN_CACHE_LIMIT</td>
+                    
+                    <td></td>
+                    
+                    <td>缓存的aclnn算子的数量。</td>
+                    
+                    <td>在alcnn和host耗时过长时，可以设置一个较大的数字，例如'export ACLNN_CACHE_LIMIT=100000'。</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>HOST_CACHE_CAPACITY</td>
+                    
+                    <td></td>
+                    
+                    <td>启用动态shape缓存。<br> 默认值为0，表示数据缓存已禁用。<br> 如果设置为非零正整数，例如10，系统将缓存最近频繁出现的10个输入形状的执行数据。<br> 当缓存的形状再次出现时，host执行性能将得到提高，但host内存使用量会增加。<br> 具体的增加与HOST_CACHE_CAPACITY的值和模型的大小成正比。</td>
+                    
+                    <td>设置一个非零数字，例如'export HOST_CACHE_CAPACITY=20'</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>ASCEND_ENHANCE_ENABLE</td>
+                    
+                    <td></td>
+                    
+                    <td>启用hccl ffts+模式。0-禁用，1-启用。</td>
+                    
+                    <td>建议通过执行命令'export ASCEND_ENHANCE_enable=1'启用hccl ffts+模式。</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>PYTORCH_NPU_ALLOC_CONF</td>
+                    
+                    <td></td>
+                    
+                    <td>控制缓存分配器的行为。<br> 可选参数为max_split_size_mb、garbage_collection_threshold和expandable_segments。<br> 1.max_split_size_mb：v —— 大于v的内存块不会被分割。<br> 2.garbage_collection_threshold：t —— 设置阈值后，如果NPU内存使用量超过阈值，缓存分配器将开始回收内存块。t的取值范围为（0.0，1.0）。<br> 3.expandable_segments:True/False —— 默认值为False。如果为True，则此设置指示缓存分配器创建特定的内存块，这些内存块可以在以后扩展，以更好地处理频繁更改的内存使用情况。</td>
+                    
+                    <td>export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>ASCEND_LAUNCH_BLOCKING</td>
+                    
+                    <td></td>
+                    
+                    <td>是否在操作执行期间启用同步模式。<br> 当设置为1时，强制算子同步运行，从而更容易调试和跟踪代码中的问题。<br> 如果设置为0，则任务将以异步模式执行。</td>
+                    
+                    <td>export ASCEND_LAUNCH_BLOCKING=1</td>
+                    
+                </tr>
+                
+            </tr>
+        </table>
+    </div>
+</div>
+            
+            <div class="collapsible">
+    <h2 class="collapsible-header">slow rank</h2>
+    <div class="collapsible-content">
+        <div class="collapsible">
+
+            
+            <div class="collapsible-header">Description</div>
+            <div class="collapsible-content">
+                <a>集群中的通信有问题， 
+因为通信时间的最大差距已经达到 
+103060.644ms。 
+集群中的空闲有问题， 
+因为空闲时间的最大差距已经达到 
+99304.586ms。 
+</a>
+            </div>
+            
+
+            
+
+            
+            <div class="collapsible-header">details</div>
+            <div class="collapsible-content">
+                
+                <table>
+                    <tr>
+                        
+                        <td>step</td>
+                        
+                        <td>rank_id</td>
+                        
+                        <td>compute(us)</td>
+                        
+                        <td>communication(us)</td>
+                        
+                        <td>free(us)</td>
+                        
+                    </tr>
+                    
+                    <tr>
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>1556714.06</td>
+                        
+                        
+                        
+                        <td>87232581.34</td>
+                        
+                        
+                        
+                        <td>36829097.07</td>
+                        
+                        
+                    </tr>
+                    
+                    <tr>
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>1</td>
+                        
+                        
+                        
+                        <td>1560276.45</td>
+                        
+                        
+                        
+                        <td>78997510.16</td>
+                        
+                        
+                        
+                        <td>43698754.88</td>
+                        
+                        
+                    </tr>
+                    
+                    <tr>
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>2</td>
+                        
+                        
+                        
+                        <td>1558312.8</td>
+                        
+                        
+                        
+                        <td>40868325.82</td>
+                        
+                        
+                        
+                        <td>79587869.88</td>
+                        
+                        
+                    </tr>
+                    
+                    <tr>
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>3</td>
+                        
+                        
+                        
+                        <td>1556942.22</td>
+                        
+                        
+                        
+                        <td>98397199.24</td>
+                        
+                        
+                        
+                        <td>25134636.69</td>
+                        
+                        
+                    </tr>
+                    
+                    <tr>
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>4</td>
+                        
+                        
+                        
+                        <td>1761254.86</td>
+                        
+                        
+                        
+                        <td>45969395.1</td>
+                        
+                        
+                        
+                        <td>77693774.04</td>
+                        
+                        
+                    </tr>
+                    
+                    <tr>
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>5</td>
+                        
+                        
+                        
+                        <td>1765175.92</td>
+                        
+                        
+                        
+                        <td>56016250.64</td>
+                        
+                        
+                        
+                        <td>65924566.11</td>
+                        
+                        
+                    </tr>
+                    
+                    <tr>
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>6</td>
+                        
+                        
+                        
+                        <td>1762990.27</td>
+                        
+                        
+                        
+                        <td>3041651.13</td>
+                        
+                        
+                        
+                        <td>117837748.23</td>
+                        
+                        
+                    </tr>
+                    
+                    <tr>
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>7</td>
+                        
+                        
+                        
+                        <td>1763501.67</td>
+                        
+                        
+                        
+                        <td>52671041.62</td>
+                        
+                        
+                        
+                        <td>69509934.54</td>
+                        
+                        
+                    </tr>
+                    
+                    <tr>
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>8</td>
+                        
+                        
+                        
+                        <td>1561748.03</td>
+                        
+                        
+                        
+                        <td>44449697.11</td>
+                        
+                        
+                        
+                        <td>76268659.57</td>
+                        
+                        
+                    </tr>
+                    
+                    <tr>
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>9</td>
+                        
+                        
+                        
+                        <td>1557930.15</td>
+                        
+                        
+                        
+                        <td>103663859.49</td>
+                        
+                        
+                        
+                        <td>20203496.84</td>
+                        
+                        
+                    </tr>
+                    
+                    <tr>
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>10</td>
+                        
+                        
+                        
+                        <td>1558704.98</td>
+                        
+                        
+                        
+                        <td>87122155.7</td>
+                        
+                        
+                        
+                        <td>35402682.33</td>
+                        
+                        
+                    </tr>
+                    
+                    <tr>
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>11</td>
+                        
+                        
+                        
+                        <td>1557350.52</td>
+                        
+                        
+                        
+                        <td>105052622.01</td>
+                        
+                        
+                        
+                        <td>18533162.23</td>
+                        
+                        
+                    </tr>
+                    
+                    <tr>
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>12</td>
+                        
+                        
+                        
+                        <td>1763293.74</td>
+                        
+                        
+                        
+                        <td>66816420.23</td>
+                        
+                        
+                        
+                        <td>48098511.97</td>
+                        
+                        
+                    </tr>
+                    
+                    <tr>
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>13</td>
+                        
+                        
+                        
+                        <td>1760975.6</td>
+                        
+                        
+                        
+                        <td>1991978.28</td>
+                        
+                        
+                        
+                        <td>111975738.82</td>
+                        
+                        
+                    </tr>
+                    
+                    <tr>
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>14</td>
+                        
+                        
+                        
+                        <td>1759204.7</td>
+                        
+                        
+                        
+                        <td>44457564.92</td>
+                        
+                        
+                        
+                        <td>68792652.51</td>
+                        
+                        
+                    </tr>
+                    
+                    <tr>
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>15</td>
+                        
+                        
+                        
+                        <td>1762214.47</td>
+                        
+                        
+                        
+                        <td>58791678.64</td>
+                        
+                        
+                        
+                        <td>56870330.29</td>
+                        
+                        
+                    </tr>
+                    
+                </table>
+                
+            </div>
+            
+
+        </div>
+
+    </div>
+</div>
+            
+            <div class="collapsible">
+    <h2 class="collapsible-header">slow link</h2>
+    <div class="collapsible-content">
+        <div class="collapsible">
+
+            
+            <div class="collapsible-header">Description</div>
+            <div class="collapsible-content">
+                <a>RDMA bandwidth(GB/s)： 
+    平均值是 23.997， 
+    但最大值是 24.017GB/s ，
+    最小值是 23.983GB/s。
+    差距为 0.034GB/s。 
+SDMA bandwidth(GB/s)： 
+    平均值是 17.935， 
+    但最大值是 18.663GB/s ，
+    最小值是 17.174GB/s。
+    差距为 1.49GB/s。 
+</a>
+            </div>
+            
+
+            
+
+            
+            <div class="collapsible-header">details</div>
+            <div class="collapsible-content">
+                
+                <table>
+                    <tr>
+                        
+                        <td>step</td>
+                        
+                        <td>rank_id</td>
+                        
+                        <td>RDMA bandwidth(GB/s)</td>
+                        
+                        <td>RDMA size(mb)</td>
+                        
+                        <td>RDMA time(ms)</td>
+                        
+                        <td>SDMA bandwidth(GB/s)</td>
+                        
+                        <td>SDMA size(mb)</td>
+                        
+                        <td>SDMA time(ms)</td>
+                        
+                    </tr>
+                    
+                    <tr>
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>23.99</td>
+                        
+                        
+                        
+                        <td>7616.22</td>
+                        
+                        
+                        
+                        <td>317.46</td>
+                        
+                        
+                        
+                        <td>18.41</td>
+                        
+                        
+                        
+                        <td>70229.43</td>
+                        
+                        
+                        
+                        <td>3813.77</td>
+                        
+                        
+                    </tr>
+                    
+                    <tr>
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>1</td>
+                        
+                        
+                        
+                        <td>24.02</td>
+                        
+                        
+                        
+                        <td>7616.22</td>
+                        
+                        
+                        
+                        <td>317.12</td>
+                        
+                        
+                        
+                        <td>17.52</td>
+                        
+                        
+                        
+                        <td>70230.23</td>
+                        
+                        
+                        
+                        <td>4008.1</td>
+                        
+                        
+                    </tr>
+                    
+                    <tr>
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>2</td>
+                        
+                        
+                        
+                        <td>23.98</td>
+                        
+                        
+                        
+                        <td>7616.22</td>
+                        
+                        
+                        
+                        <td>317.55</td>
+                        
+                        
+                        
+                        <td>18.59</td>
+                        
+                        
+                        
+                        <td>70230.23</td>
+                        
+                        
+                        
+                        <td>3777.48</td>
+                        
+                        
+                    </tr>
+                    
+                    <tr>
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>3</td>
+                        
+                        
+                        
+                        <td>24.01</td>
+                        
+                        
+                        
+                        <td>7616.22</td>
+                        
+                        
+                        
+                        <td>317.21</td>
+                        
+                        
+                        
+                        <td>18.66</td>
+                        
+                        
+                        
+                        <td>70230.23</td>
+                        
+                        
+                        
+                        <td>3763.05</td>
+                        
+                        
+                    </tr>
+                    
+                    <tr>
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>4</td>
+                        
+                        
+                        
+                        <td>24.0</td>
+                        
+                        
+                        
+                        <td>7616.24</td>
+                        
+                        
+                        
+                        <td>317.37</td>
+                        
+                        
+                        
+                        <td>17.17</td>
+                        
+                        
+                        
+                        <td>70229.43</td>
+                        
+                        
+                        
+                        <td>4089.41</td>
+                        
+                        
+                    </tr>
+                    
+                    <tr>
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>5</td>
+                        
+                        
+                        
+                        <td>24.01</td>
+                        
+                        
+                        
+                        <td>7616.24</td>
+                        
+                        
+                        
+                        <td>317.24</td>
+                        
+                        
+                        
+                        <td>17.2</td>
+                        
+                        
+                        
+                        <td>70231.31</td>
+                        
+                        
+                        
+                        <td>4083.65</td>
+                        
+                        
+                    </tr>
+                    
+                    <tr>
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>6</td>
+                        
+                        
+                        
+                        <td>24.0</td>
+                        
+                        
+                        
+                        <td>7616.24</td>
+                        
+                        
+                        
+                        <td>317.29</td>
+                        
+                        
+                        
+                        <td>17.38</td>
+                        
+                        
+                        
+                        <td>70231.31</td>
+                        
+                        
+                        
+                        <td>4041.88</td>
+                        
+                        
+                    </tr>
+                    
+                    <tr>
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>7</td>
+                        
+                        
+                        
+                        <td>24.01</td>
+                        
+                        
+                        
+                        <td>7616.24</td>
+                        
+                        
+                        
+                        <td>317.22</td>
+                        
+                        
+                        
+                        <td>18.43</td>
+                        
+                        
+                        
+                        <td>70231.31</td>
+                        
+                        
+                        
+                        <td>3811.14</td>
+                        
+                        
+                    </tr>
+                    
+                    <tr>
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>8</td>
+                        
+                        
+                        
+                        <td>23.99</td>
+                        
+                        
+                        
+                        <td>7616.22</td>
+                        
+                        
+                        
+                        <td>317.48</td>
+                        
+                        
+                        
+                        <td>18.39</td>
+                        
+                        
+                        
+                        <td>70229.43</td>
+                        
+                        
+                        
+                        <td>3819.49</td>
+                        
+                        
+                    </tr>
+                    
+                    <tr>
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>9</td>
+                        
+                        
+                        
+                        <td>24.0</td>
+                        
+                        
+                        
+                        <td>7616.22</td>
+                        
+                        
+                        
+                        <td>317.35</td>
+                        
+                        
+                        
+                        <td>17.6</td>
+                        
+                        
+                        
+                        <td>70230.23</td>
+                        
+                        
+                        
+                        <td>3990.1</td>
+                        
+                        
+                    </tr>
+                    
+                    <tr>
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>10</td>
+                        
+                        
+                        
+                        <td>23.99</td>
+                        
+                        
+                        
+                        <td>7616.22</td>
+                        
+                        
+                        
+                        <td>317.45</td>
+                        
+                        
+                        
+                        <td>18.64</td>
+                        
+                        
+                        
+                        <td>70230.23</td>
+                        
+                        
+                        
+                        <td>3768.14</td>
+                        
+                        
+                    </tr>
+                    
+                    <tr>
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>11</td>
+                        
+                        
+                        
+                        <td>23.99</td>
+                        
+                        
+                        
+                        <td>7616.22</td>
+                        
+                        
+                        
+                        <td>317.44</td>
+                        
+                        
+                        
+                        <td>18.57</td>
+                        
+                        
+                        
+                        <td>70230.23</td>
+                        
+                        
+                        
+                        <td>3782.16</td>
+                        
+                        
+                    </tr>
+                    
+                    <tr>
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>12</td>
+                        
+                        
+                        
+                        <td>24.0</td>
+                        
+                        
+                        
+                        <td>7616.24</td>
+                        
+                        
+                        
+                        <td>317.34</td>
+                        
+                        
+                        
+                        <td>17.24</td>
+                        
+                        
+                        
+                        <td>70229.43</td>
+                        
+                        
+                        
+                        <td>4074.61</td>
+                        
+                        
+                    </tr>
+                    
+                    <tr>
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>13</td>
+                        
+                        
+                        
+                        <td>23.98</td>
+                        
+                        
+                        
+                        <td>7616.24</td>
+                        
+                        
+                        
+                        <td>317.57</td>
+                        
+                        
+                        
+                        <td>17.41</td>
+                        
+                        
+                        
+                        <td>70231.31</td>
+                        
+                        
+                        
+                        <td>4035.02</td>
+                        
+                        
+                    </tr>
+                    
+                    <tr>
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>14</td>
+                        
+                        
+                        
+                        <td>23.98</td>
+                        
+                        
+                        
+                        <td>7616.24</td>
+                        
+                        
+                        
+                        <td>317.56</td>
+                        
+                        
+                        
+                        <td>17.24</td>
+                        
+                        
+                        
+                        <td>70231.31</td>
+                        
+                        
+                        
+                        <td>4074.82</td>
+                        
+                        
+                    </tr>
+                    
+                    <tr>
+                        
+                        
+                        <td>0</td>
+                        
+                        
+                        
+                        <td>15</td>
+                        
+                        
+                        
+                        <td>23.99</td>
+                        
+                        
+                        
+                        <td>7616.24</td>
+                        
+                        
+                        
+                        <td>317.5</td>
+                        
+                        
+                        
+                        <td>18.52</td>
+                        
+                        
+                        
+                        <td>70231.31</td>
+                        
+                        
+                        
+                        <td>3792.47</td>
+                        
+                        
+                    </tr>
+                    
+                </table>
+                
+            </div>
+            
+
+        </div>
+
+    </div>
+</div>
+            
+        </div>
+    </div>
+    
+
+    
+    <div class="collapsible">
+        <h2 class="collapsible-header">comparison</h2>
+        <div class="collapsible-content">
+            
+            
+<div class="collapsible">
+      <h2 class="collapsible-header" style="background-color: ;">Kernel compare of Rank4 Step0 and Rank0 Step0</h2>
+      <div class="collapsible-content">
+            <a style="font-weight: bold" id="timeline_api_instruction_issue">Issue: Kernel compare of Rank4 Step0 and Rank0 Step0. Only show 10 rows here, see mstt_advisor*.xlsx for details</a>
+            <br><br>
+            <table>
+                <tr>
+                
+                    <th> Order Id </th>
+                
+                    <th> Kernel Type </th>
+                
+                    <th> Core Type </th>
+                
+                    <th> Total Duration(us) </th>
+                
+                    <th> Avg Duration(us) </th>
+                
+                    <th> Max Duration(us) </th>
+                
+                    <th> Min Duration(us) </th>
+                
+                    <th> Calls </th>
+                
+                    <th> Benchmark  Total Duration(us) </th>
+                
+                    <th> Benchmark  Avg Duration(us) </th>
+                
+                    <th> Benchmark  Max Duration(us) </th>
+                
+                    <th> Benchmark  Min Duration(us) </th>
+                
+                    <th> Benchmark  Calls </th>
+                
+                    <th> Diff Total Ratio </th>
+                
+                    <th> Diff Avg Ratio </th>
+                
+                </tr>
+
+                
+                <tr>
+                    
+                    <td>1</td>
+                    
+                    <td>GatherV2</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0</td>
+                    
+                    <td>1316.306</td>
+                    
+                    <td>658.153</td>
+                    
+                    <td>660.833</td>
+                    
+                    <td>655.473</td>
+                    
+                    <td>2</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>2</td>
+                    
+                    <td>EmbeddingDenseGradV2</td>
+                    
+                    <td>MIX_AIV</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0</td>
+                    
+                    <td>899.178</td>
+                    
+                    <td>449.589</td>
+                    
+                    <td>451.049</td>
+                    
+                    <td>448.129</td>
+                    
+                    <td>2</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>3</td>
+                    
+                    <td>MemSet</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>122.302</td>
+                    
+                    <td>10.192</td>
+                    
+                    <td>12.68</td>
+                    
+                    <td>6.56</td>
+                    
+                    <td>12</td>
+                    
+                    <td>761.135</td>
+                    
+                    <td>63.428</td>
+                    
+                    <td>337.366</td>
+                    
+                    <td>5.46</td>
+                    
+                    <td>12</td>
+                    
+                    <td>6.2234</td>
+                    
+                    <td>6.2233</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>39</td>
+                    
+                    <td>Range</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>49.381</td>
+                    
+                    <td>12.345</td>
+                    
+                    <td>12.661</td>
+                    
+                    <td>11.921</td>
+                    
+                    <td>4</td>
+                    
+                    <td>29.181</td>
+                    
+                    <td>14.591</td>
+                    
+                    <td>14.64</td>
+                    
+                    <td>14.54</td>
+                    
+                    <td>2</td>
+                    
+                    <td>0.5909</td>
+                    
+                    <td>1.1819</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>4</td>
+                    
+                    <td>GreaterEqual</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>16.901</td>
+                    
+                    <td>8.45</td>
+                    
+                    <td>8.56</td>
+                    
+                    <td>8.341</td>
+                    
+                    <td>2</td>
+                    
+                    <td>19.081</td>
+                    
+                    <td>9.54</td>
+                    
+                    <td>9.681</td>
+                    
+                    <td>9.4</td>
+                    
+                    <td>2</td>
+                    
+                    <td>1.129</td>
+                    
+                    <td>1.129</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>43</td>
+                    
+                    <td>Fill</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>15.881</td>
+                    
+                    <td>1.444</td>
+                    
+                    <td>1.6</td>
+                    
+                    <td>1.3</td>
+                    
+                    <td>11</td>
+                    
+                    <td>6.52</td>
+                    
+                    <td>1.63</td>
+                    
+                    <td>1.88</td>
+                    
+                    <td>1.42</td>
+                    
+                    <td>4</td>
+                    
+                    <td>0.4106</td>
+                    
+                    <td>1.1288</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>38</td>
+                    
+                    <td>LinearIndexV2</td>
+                    
+                    <td>MIX_AIV</td>
+                    
+                    <td>121.502</td>
+                    
+                    <td>20.25</td>
+                    
+                    <td>20.86</td>
+                    
+                    <td>18.881</td>
+                    
+                    <td>6</td>
+                    
+                    <td>90.682</td>
+                    
+                    <td>22.671</td>
+                    
+                    <td>24.34</td>
+                    
+                    <td>21.541</td>
+                    
+                    <td>4</td>
+                    
+                    <td>0.7463</td>
+                    
+                    <td>1.1196</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>5</td>
+                    
+                    <td>Less</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>21.441</td>
+                    
+                    <td>10.72</td>
+                    
+                    <td>11.28</td>
+                    
+                    <td>10.161</td>
+                    
+                    <td>2</td>
+                    
+                    <td>23.921</td>
+                    
+                    <td>11.96</td>
+                    
+                    <td>12.581</td>
+                    
+                    <td>11.34</td>
+                    
+                    <td>2</td>
+                    
+                    <td>1.1157</td>
+                    
+                    <td>1.1157</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>6</td>
+                    
+                    <td>Addcmul</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>11961.336</td>
+                    
+                    <td>35.18</td>
+                    
+                    <td>889.337</td>
+                    
+                    <td>2.0</td>
+                    
+                    <td>340</td>
+                    
+                    <td>12491.693</td>
+                    
+                    <td>36.958</td>
+                    
+                    <td>895.998</td>
+                    
+                    <td>2.04</td>
+                    
+                    <td>338</td>
+                    
+                    <td>1.0443</td>
+                    
+                    <td>1.0505</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>7</td>
+                    
+                    <td>Addcdiv</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>13155.317</td>
+                    
+                    <td>38.692</td>
+                    
+                    <td>1144.902</td>
+                    
+                    <td>1.94</td>
+                    
+                    <td>340</td>
+                    
+                    <td>13414.21</td>
+                    
+                    <td>39.687</td>
+                    
+                    <td>1141.842</td>
+                    
+                    <td>1.98</td>
+                    
+                    <td>338</td>
+                    
+                    <td>1.0197</td>
+                    
+                    <td>1.0257</td>
+                    
+                </tr>
+                
+            </table>
+
+        </div>
+</div>
+
+            
+            
+<div class="collapsible">
+      <h2 class="collapsible-header" style="background-color: ;">Kernel compare of Rank5 Step0 and Rank1 Step0</h2>
+      <div class="collapsible-content">
+            <a style="font-weight: bold" id="timeline_api_instruction_issue">Issue: Kernel compare of Rank5 Step0 and Rank1 Step0. Only show 10 rows here, see mstt_advisor*.xlsx for details</a>
+            <br><br>
+            <table>
+                <tr>
+                
+                    <th> Order Id </th>
+                
+                    <th> Kernel Type </th>
+                
+                    <th> Core Type </th>
+                
+                    <th> Total Duration(us) </th>
+                
+                    <th> Avg Duration(us) </th>
+                
+                    <th> Max Duration(us) </th>
+                
+                    <th> Min Duration(us) </th>
+                
+                    <th> Calls </th>
+                
+                    <th> Benchmark  Total Duration(us) </th>
+                
+                    <th> Benchmark  Avg Duration(us) </th>
+                
+                    <th> Benchmark  Max Duration(us) </th>
+                
+                    <th> Benchmark  Min Duration(us) </th>
+                
+                    <th> Benchmark  Calls </th>
+                
+                    <th> Diff Total Ratio </th>
+                
+                    <th> Diff Avg Ratio </th>
+                
+                </tr>
+
+                
+                <tr>
+                    
+                    <td>1</td>
+                    
+                    <td>GatherV2</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0</td>
+                    
+                    <td>1316.306</td>
+                    
+                    <td>658.153</td>
+                    
+                    <td>660.833</td>
+                    
+                    <td>655.473</td>
+                    
+                    <td>2</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>2</td>
+                    
+                    <td>EmbeddingDenseGradV2</td>
+                    
+                    <td>MIX_AIV</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0</td>
+                    
+                    <td>899.178</td>
+                    
+                    <td>449.589</td>
+                    
+                    <td>451.049</td>
+                    
+                    <td>448.129</td>
+                    
+                    <td>2</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>3</td>
+                    
+                    <td>MemSet</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>122.302</td>
+                    
+                    <td>10.192</td>
+                    
+                    <td>12.68</td>
+                    
+                    <td>6.56</td>
+                    
+                    <td>12</td>
+                    
+                    <td>761.135</td>
+                    
+                    <td>63.428</td>
+                    
+                    <td>337.366</td>
+                    
+                    <td>5.46</td>
+                    
+                    <td>12</td>
+                    
+                    <td>6.2234</td>
+                    
+                    <td>6.2233</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>39</td>
+                    
+                    <td>Range</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>49.381</td>
+                    
+                    <td>12.345</td>
+                    
+                    <td>12.661</td>
+                    
+                    <td>11.921</td>
+                    
+                    <td>4</td>
+                    
+                    <td>29.181</td>
+                    
+                    <td>14.591</td>
+                    
+                    <td>14.64</td>
+                    
+                    <td>14.54</td>
+                    
+                    <td>2</td>
+                    
+                    <td>0.5909</td>
+                    
+                    <td>1.1819</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>4</td>
+                    
+                    <td>GreaterEqual</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>16.901</td>
+                    
+                    <td>8.45</td>
+                    
+                    <td>8.56</td>
+                    
+                    <td>8.341</td>
+                    
+                    <td>2</td>
+                    
+                    <td>19.081</td>
+                    
+                    <td>9.54</td>
+                    
+                    <td>9.681</td>
+                    
+                    <td>9.4</td>
+                    
+                    <td>2</td>
+                    
+                    <td>1.129</td>
+                    
+                    <td>1.129</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>43</td>
+                    
+                    <td>Fill</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>15.881</td>
+                    
+                    <td>1.444</td>
+                    
+                    <td>1.6</td>
+                    
+                    <td>1.3</td>
+                    
+                    <td>11</td>
+                    
+                    <td>6.52</td>
+                    
+                    <td>1.63</td>
+                    
+                    <td>1.88</td>
+                    
+                    <td>1.42</td>
+                    
+                    <td>4</td>
+                    
+                    <td>0.4106</td>
+                    
+                    <td>1.1288</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>38</td>
+                    
+                    <td>LinearIndexV2</td>
+                    
+                    <td>MIX_AIV</td>
+                    
+                    <td>121.502</td>
+                    
+                    <td>20.25</td>
+                    
+                    <td>20.86</td>
+                    
+                    <td>18.881</td>
+                    
+                    <td>6</td>
+                    
+                    <td>90.682</td>
+                    
+                    <td>22.671</td>
+                    
+                    <td>24.34</td>
+                    
+                    <td>21.541</td>
+                    
+                    <td>4</td>
+                    
+                    <td>0.7463</td>
+                    
+                    <td>1.1196</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>5</td>
+                    
+                    <td>Less</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>21.441</td>
+                    
+                    <td>10.72</td>
+                    
+                    <td>11.28</td>
+                    
+                    <td>10.161</td>
+                    
+                    <td>2</td>
+                    
+                    <td>23.921</td>
+                    
+                    <td>11.96</td>
+                    
+                    <td>12.581</td>
+                    
+                    <td>11.34</td>
+                    
+                    <td>2</td>
+                    
+                    <td>1.1157</td>
+                    
+                    <td>1.1157</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>6</td>
+                    
+                    <td>Addcmul</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>11961.336</td>
+                    
+                    <td>35.18</td>
+                    
+                    <td>889.337</td>
+                    
+                    <td>2.0</td>
+                    
+                    <td>340</td>
+                    
+                    <td>12491.693</td>
+                    
+                    <td>36.958</td>
+                    
+                    <td>895.998</td>
+                    
+                    <td>2.04</td>
+                    
+                    <td>338</td>
+                    
+                    <td>1.0443</td>
+                    
+                    <td>1.0505</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>7</td>
+                    
+                    <td>Addcdiv</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>13155.317</td>
+                    
+                    <td>38.692</td>
+                    
+                    <td>1144.902</td>
+                    
+                    <td>1.94</td>
+                    
+                    <td>340</td>
+                    
+                    <td>13414.21</td>
+                    
+                    <td>39.687</td>
+                    
+                    <td>1141.842</td>
+                    
+                    <td>1.98</td>
+                    
+                    <td>338</td>
+                    
+                    <td>1.0197</td>
+                    
+                    <td>1.0257</td>
+                    
+                </tr>
+                
+            </table>
+
+        </div>
+</div>
+
+            
+            
+<div class="collapsible">
+      <h2 class="collapsible-header" style="background-color: ;">Kernel compare of Rank6 Step0 and Rank2 Step0</h2>
+      <div class="collapsible-content">
+            <a style="font-weight: bold" id="timeline_api_instruction_issue">Issue: Kernel compare of Rank6 Step0 and Rank2 Step0. Only show 10 rows here, see mstt_advisor*.xlsx for details</a>
+            <br><br>
+            <table>
+                <tr>
+                
+                    <th> Order Id </th>
+                
+                    <th> Kernel Type </th>
+                
+                    <th> Core Type </th>
+                
+                    <th> Total Duration(us) </th>
+                
+                    <th> Avg Duration(us) </th>
+                
+                    <th> Max Duration(us) </th>
+                
+                    <th> Min Duration(us) </th>
+                
+                    <th> Calls </th>
+                
+                    <th> Benchmark  Total Duration(us) </th>
+                
+                    <th> Benchmark  Avg Duration(us) </th>
+                
+                    <th> Benchmark  Max Duration(us) </th>
+                
+                    <th> Benchmark  Min Duration(us) </th>
+                
+                    <th> Benchmark  Calls </th>
+                
+                    <th> Diff Total Ratio </th>
+                
+                    <th> Diff Avg Ratio </th>
+                
+                </tr>
+
+                
+                <tr>
+                    
+                    <td>1</td>
+                    
+                    <td>GatherV2</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0</td>
+                    
+                    <td>1316.306</td>
+                    
+                    <td>658.153</td>
+                    
+                    <td>660.833</td>
+                    
+                    <td>655.473</td>
+                    
+                    <td>2</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>2</td>
+                    
+                    <td>EmbeddingDenseGradV2</td>
+                    
+                    <td>MIX_AIV</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0</td>
+                    
+                    <td>899.178</td>
+                    
+                    <td>449.589</td>
+                    
+                    <td>451.049</td>
+                    
+                    <td>448.129</td>
+                    
+                    <td>2</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>3</td>
+                    
+                    <td>MemSet</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>122.302</td>
+                    
+                    <td>10.192</td>
+                    
+                    <td>12.68</td>
+                    
+                    <td>6.56</td>
+                    
+                    <td>12</td>
+                    
+                    <td>761.135</td>
+                    
+                    <td>63.428</td>
+                    
+                    <td>337.366</td>
+                    
+                    <td>5.46</td>
+                    
+                    <td>12</td>
+                    
+                    <td>6.2234</td>
+                    
+                    <td>6.2233</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>39</td>
+                    
+                    <td>Range</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>49.381</td>
+                    
+                    <td>12.345</td>
+                    
+                    <td>12.661</td>
+                    
+                    <td>11.921</td>
+                    
+                    <td>4</td>
+                    
+                    <td>29.181</td>
+                    
+                    <td>14.591</td>
+                    
+                    <td>14.64</td>
+                    
+                    <td>14.54</td>
+                    
+                    <td>2</td>
+                    
+                    <td>0.5909</td>
+                    
+                    <td>1.1819</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>4</td>
+                    
+                    <td>GreaterEqual</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>16.901</td>
+                    
+                    <td>8.45</td>
+                    
+                    <td>8.56</td>
+                    
+                    <td>8.341</td>
+                    
+                    <td>2</td>
+                    
+                    <td>19.081</td>
+                    
+                    <td>9.54</td>
+                    
+                    <td>9.681</td>
+                    
+                    <td>9.4</td>
+                    
+                    <td>2</td>
+                    
+                    <td>1.129</td>
+                    
+                    <td>1.129</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>43</td>
+                    
+                    <td>Fill</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>15.881</td>
+                    
+                    <td>1.444</td>
+                    
+                    <td>1.6</td>
+                    
+                    <td>1.3</td>
+                    
+                    <td>11</td>
+                    
+                    <td>6.52</td>
+                    
+                    <td>1.63</td>
+                    
+                    <td>1.88</td>
+                    
+                    <td>1.42</td>
+                    
+                    <td>4</td>
+                    
+                    <td>0.4106</td>
+                    
+                    <td>1.1288</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>38</td>
+                    
+                    <td>LinearIndexV2</td>
+                    
+                    <td>MIX_AIV</td>
+                    
+                    <td>121.502</td>
+                    
+                    <td>20.25</td>
+                    
+                    <td>20.86</td>
+                    
+                    <td>18.881</td>
+                    
+                    <td>6</td>
+                    
+                    <td>90.682</td>
+                    
+                    <td>22.671</td>
+                    
+                    <td>24.34</td>
+                    
+                    <td>21.541</td>
+                    
+                    <td>4</td>
+                    
+                    <td>0.7463</td>
+                    
+                    <td>1.1196</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>5</td>
+                    
+                    <td>Less</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>21.441</td>
+                    
+                    <td>10.72</td>
+                    
+                    <td>11.28</td>
+                    
+                    <td>10.161</td>
+                    
+                    <td>2</td>
+                    
+                    <td>23.921</td>
+                    
+                    <td>11.96</td>
+                    
+                    <td>12.581</td>
+                    
+                    <td>11.34</td>
+                    
+                    <td>2</td>
+                    
+                    <td>1.1157</td>
+                    
+                    <td>1.1157</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>6</td>
+                    
+                    <td>Addcmul</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>11961.336</td>
+                    
+                    <td>35.18</td>
+                    
+                    <td>889.337</td>
+                    
+                    <td>2.0</td>
+                    
+                    <td>340</td>
+                    
+                    <td>12491.693</td>
+                    
+                    <td>36.958</td>
+                    
+                    <td>895.998</td>
+                    
+                    <td>2.04</td>
+                    
+                    <td>338</td>
+                    
+                    <td>1.0443</td>
+                    
+                    <td>1.0505</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>7</td>
+                    
+                    <td>Addcdiv</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>13155.317</td>
+                    
+                    <td>38.692</td>
+                    
+                    <td>1144.902</td>
+                    
+                    <td>1.94</td>
+                    
+                    <td>340</td>
+                    
+                    <td>13414.21</td>
+                    
+                    <td>39.687</td>
+                    
+                    <td>1141.842</td>
+                    
+                    <td>1.98</td>
+                    
+                    <td>338</td>
+                    
+                    <td>1.0197</td>
+                    
+                    <td>1.0257</td>
+                    
+                </tr>
+                
+            </table>
+
+        </div>
+</div>
+
+            
+            
+<div class="collapsible">
+      <h2 class="collapsible-header" style="background-color: ;">Kernel compare of Rank7 Step0 and Rank3 Step0</h2>
+      <div class="collapsible-content">
+            <a style="font-weight: bold" id="timeline_api_instruction_issue">Issue: Kernel compare of Rank7 Step0 and Rank3 Step0. Only show 10 rows here, see mstt_advisor*.xlsx for details</a>
+            <br><br>
+            <table>
+                <tr>
+                
+                    <th> Order Id </th>
+                
+                    <th> Kernel Type </th>
+                
+                    <th> Core Type </th>
+                
+                    <th> Total Duration(us) </th>
+                
+                    <th> Avg Duration(us) </th>
+                
+                    <th> Max Duration(us) </th>
+                
+                    <th> Min Duration(us) </th>
+                
+                    <th> Calls </th>
+                
+                    <th> Benchmark  Total Duration(us) </th>
+                
+                    <th> Benchmark  Avg Duration(us) </th>
+                
+                    <th> Benchmark  Max Duration(us) </th>
+                
+                    <th> Benchmark  Min Duration(us) </th>
+                
+                    <th> Benchmark  Calls </th>
+                
+                    <th> Diff Total Ratio </th>
+                
+                    <th> Diff Avg Ratio </th>
+                
+                </tr>
+
+                
+                <tr>
+                    
+                    <td>1</td>
+                    
+                    <td>GatherV2</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0</td>
+                    
+                    <td>1316.306</td>
+                    
+                    <td>658.153</td>
+                    
+                    <td>660.833</td>
+                    
+                    <td>655.473</td>
+                    
+                    <td>2</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>2</td>
+                    
+                    <td>EmbeddingDenseGradV2</td>
+                    
+                    <td>MIX_AIV</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0</td>
+                    
+                    <td>899.178</td>
+                    
+                    <td>449.589</td>
+                    
+                    <td>451.049</td>
+                    
+                    <td>448.129</td>
+                    
+                    <td>2</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>3</td>
+                    
+                    <td>MemSet</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>122.302</td>
+                    
+                    <td>10.192</td>
+                    
+                    <td>12.68</td>
+                    
+                    <td>6.56</td>
+                    
+                    <td>12</td>
+                    
+                    <td>761.135</td>
+                    
+                    <td>63.428</td>
+                    
+                    <td>337.366</td>
+                    
+                    <td>5.46</td>
+                    
+                    <td>12</td>
+                    
+                    <td>6.2234</td>
+                    
+                    <td>6.2233</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>39</td>
+                    
+                    <td>Range</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>49.381</td>
+                    
+                    <td>12.345</td>
+                    
+                    <td>12.661</td>
+                    
+                    <td>11.921</td>
+                    
+                    <td>4</td>
+                    
+                    <td>29.181</td>
+                    
+                    <td>14.591</td>
+                    
+                    <td>14.64</td>
+                    
+                    <td>14.54</td>
+                    
+                    <td>2</td>
+                    
+                    <td>0.5909</td>
+                    
+                    <td>1.1819</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>4</td>
+                    
+                    <td>GreaterEqual</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>16.901</td>
+                    
+                    <td>8.45</td>
+                    
+                    <td>8.56</td>
+                    
+                    <td>8.341</td>
+                    
+                    <td>2</td>
+                    
+                    <td>19.081</td>
+                    
+                    <td>9.54</td>
+                    
+                    <td>9.681</td>
+                    
+                    <td>9.4</td>
+                    
+                    <td>2</td>
+                    
+                    <td>1.129</td>
+                    
+                    <td>1.129</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>43</td>
+                    
+                    <td>Fill</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>15.881</td>
+                    
+                    <td>1.444</td>
+                    
+                    <td>1.6</td>
+                    
+                    <td>1.3</td>
+                    
+                    <td>11</td>
+                    
+                    <td>6.52</td>
+                    
+                    <td>1.63</td>
+                    
+                    <td>1.88</td>
+                    
+                    <td>1.42</td>
+                    
+                    <td>4</td>
+                    
+                    <td>0.4106</td>
+                    
+                    <td>1.1288</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>38</td>
+                    
+                    <td>LinearIndexV2</td>
+                    
+                    <td>MIX_AIV</td>
+                    
+                    <td>121.502</td>
+                    
+                    <td>20.25</td>
+                    
+                    <td>20.86</td>
+                    
+                    <td>18.881</td>
+                    
+                    <td>6</td>
+                    
+                    <td>90.682</td>
+                    
+                    <td>22.671</td>
+                    
+                    <td>24.34</td>
+                    
+                    <td>21.541</td>
+                    
+                    <td>4</td>
+                    
+                    <td>0.7463</td>
+                    
+                    <td>1.1196</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>5</td>
+                    
+                    <td>Less</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>21.441</td>
+                    
+                    <td>10.72</td>
+                    
+                    <td>11.28</td>
+                    
+                    <td>10.161</td>
+                    
+                    <td>2</td>
+                    
+                    <td>23.921</td>
+                    
+                    <td>11.96</td>
+                    
+                    <td>12.581</td>
+                    
+                    <td>11.34</td>
+                    
+                    <td>2</td>
+                    
+                    <td>1.1157</td>
+                    
+                    <td>1.1157</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>6</td>
+                    
+                    <td>Addcmul</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>11961.336</td>
+                    
+                    <td>35.18</td>
+                    
+                    <td>889.337</td>
+                    
+                    <td>2.0</td>
+                    
+                    <td>340</td>
+                    
+                    <td>12491.693</td>
+                    
+                    <td>36.958</td>
+                    
+                    <td>895.998</td>
+                    
+                    <td>2.04</td>
+                    
+                    <td>338</td>
+                    
+                    <td>1.0443</td>
+                    
+                    <td>1.0505</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>7</td>
+                    
+                    <td>Addcdiv</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>13155.317</td>
+                    
+                    <td>38.692</td>
+                    
+                    <td>1144.902</td>
+                    
+                    <td>1.94</td>
+                    
+                    <td>340</td>
+                    
+                    <td>13414.21</td>
+                    
+                    <td>39.687</td>
+                    
+                    <td>1141.842</td>
+                    
+                    <td>1.98</td>
+                    
+                    <td>338</td>
+                    
+                    <td>1.0197</td>
+                    
+                    <td>1.0257</td>
+                    
+                </tr>
+                
+            </table>
+
+        </div>
+</div>
+
+            
+            
+<div class="collapsible">
+      <h2 class="collapsible-header" style="background-color: ;">Kernel compare of Rank12 Step0 and Rank8 Step0</h2>
+      <div class="collapsible-content">
+            <a style="font-weight: bold" id="timeline_api_instruction_issue">Issue: Kernel compare of Rank12 Step0 and Rank8 Step0. Only show 10 rows here, see mstt_advisor*.xlsx for details</a>
+            <br><br>
+            <table>
+                <tr>
+                
+                    <th> Order Id </th>
+                
+                    <th> Kernel Type </th>
+                
+                    <th> Core Type </th>
+                
+                    <th> Total Duration(us) </th>
+                
+                    <th> Avg Duration(us) </th>
+                
+                    <th> Max Duration(us) </th>
+                
+                    <th> Min Duration(us) </th>
+                
+                    <th> Calls </th>
+                
+                    <th> Benchmark  Total Duration(us) </th>
+                
+                    <th> Benchmark  Avg Duration(us) </th>
+                
+                    <th> Benchmark  Max Duration(us) </th>
+                
+                    <th> Benchmark  Min Duration(us) </th>
+                
+                    <th> Benchmark  Calls </th>
+                
+                    <th> Diff Total Ratio </th>
+                
+                    <th> Diff Avg Ratio </th>
+                
+                </tr>
+
+                
+                <tr>
+                    
+                    <td>1</td>
+                    
+                    <td>GatherV2</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0</td>
+                    
+                    <td>1316.306</td>
+                    
+                    <td>658.153</td>
+                    
+                    <td>660.833</td>
+                    
+                    <td>655.473</td>
+                    
+                    <td>2</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>2</td>
+                    
+                    <td>EmbeddingDenseGradV2</td>
+                    
+                    <td>MIX_AIV</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0</td>
+                    
+                    <td>899.178</td>
+                    
+                    <td>449.589</td>
+                    
+                    <td>451.049</td>
+                    
+                    <td>448.129</td>
+                    
+                    <td>2</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>3</td>
+                    
+                    <td>MemSet</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>122.302</td>
+                    
+                    <td>10.192</td>
+                    
+                    <td>12.68</td>
+                    
+                    <td>6.56</td>
+                    
+                    <td>12</td>
+                    
+                    <td>761.135</td>
+                    
+                    <td>63.428</td>
+                    
+                    <td>337.366</td>
+                    
+                    <td>5.46</td>
+                    
+                    <td>12</td>
+                    
+                    <td>6.2234</td>
+                    
+                    <td>6.2233</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>39</td>
+                    
+                    <td>Range</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>49.381</td>
+                    
+                    <td>12.345</td>
+                    
+                    <td>12.661</td>
+                    
+                    <td>11.921</td>
+                    
+                    <td>4</td>
+                    
+                    <td>29.181</td>
+                    
+                    <td>14.591</td>
+                    
+                    <td>14.64</td>
+                    
+                    <td>14.54</td>
+                    
+                    <td>2</td>
+                    
+                    <td>0.5909</td>
+                    
+                    <td>1.1819</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>4</td>
+                    
+                    <td>GreaterEqual</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>16.901</td>
+                    
+                    <td>8.45</td>
+                    
+                    <td>8.56</td>
+                    
+                    <td>8.341</td>
+                    
+                    <td>2</td>
+                    
+                    <td>19.081</td>
+                    
+                    <td>9.54</td>
+                    
+                    <td>9.681</td>
+                    
+                    <td>9.4</td>
+                    
+                    <td>2</td>
+                    
+                    <td>1.129</td>
+                    
+                    <td>1.129</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>43</td>
+                    
+                    <td>Fill</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>15.881</td>
+                    
+                    <td>1.444</td>
+                    
+                    <td>1.6</td>
+                    
+                    <td>1.3</td>
+                    
+                    <td>11</td>
+                    
+                    <td>6.52</td>
+                    
+                    <td>1.63</td>
+                    
+                    <td>1.88</td>
+                    
+                    <td>1.42</td>
+                    
+                    <td>4</td>
+                    
+                    <td>0.4106</td>
+                    
+                    <td>1.1288</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>38</td>
+                    
+                    <td>LinearIndexV2</td>
+                    
+                    <td>MIX_AIV</td>
+                    
+                    <td>121.502</td>
+                    
+                    <td>20.25</td>
+                    
+                    <td>20.86</td>
+                    
+                    <td>18.881</td>
+                    
+                    <td>6</td>
+                    
+                    <td>90.682</td>
+                    
+                    <td>22.671</td>
+                    
+                    <td>24.34</td>
+                    
+                    <td>21.541</td>
+                    
+                    <td>4</td>
+                    
+                    <td>0.7463</td>
+                    
+                    <td>1.1196</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>5</td>
+                    
+                    <td>Less</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>21.441</td>
+                    
+                    <td>10.72</td>
+                    
+                    <td>11.28</td>
+                    
+                    <td>10.161</td>
+                    
+                    <td>2</td>
+                    
+                    <td>23.921</td>
+                    
+                    <td>11.96</td>
+                    
+                    <td>12.581</td>
+                    
+                    <td>11.34</td>
+                    
+                    <td>2</td>
+                    
+                    <td>1.1157</td>
+                    
+                    <td>1.1157</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>6</td>
+                    
+                    <td>Addcmul</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>11961.336</td>
+                    
+                    <td>35.18</td>
+                    
+                    <td>889.337</td>
+                    
+                    <td>2.0</td>
+                    
+                    <td>340</td>
+                    
+                    <td>12491.693</td>
+                    
+                    <td>36.958</td>
+                    
+                    <td>895.998</td>
+                    
+                    <td>2.04</td>
+                    
+                    <td>338</td>
+                    
+                    <td>1.0443</td>
+                    
+                    <td>1.0505</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>7</td>
+                    
+                    <td>Addcdiv</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>13155.317</td>
+                    
+                    <td>38.692</td>
+                    
+                    <td>1144.902</td>
+                    
+                    <td>1.94</td>
+                    
+                    <td>340</td>
+                    
+                    <td>13414.21</td>
+                    
+                    <td>39.687</td>
+                    
+                    <td>1141.842</td>
+                    
+                    <td>1.98</td>
+                    
+                    <td>338</td>
+                    
+                    <td>1.0197</td>
+                    
+                    <td>1.0257</td>
+                    
+                </tr>
+                
+            </table>
+
+        </div>
+</div>
+
+            
+            
+<div class="collapsible">
+      <h2 class="collapsible-header" style="background-color: ;">Kernel compare of Rank13 Step0 and Rank9 Step0</h2>
+      <div class="collapsible-content">
+            <a style="font-weight: bold" id="timeline_api_instruction_issue">Issue: Kernel compare of Rank13 Step0 and Rank9 Step0. Only show 10 rows here, see mstt_advisor*.xlsx for details</a>
+            <br><br>
+            <table>
+                <tr>
+                
+                    <th> Order Id </th>
+                
+                    <th> Kernel Type </th>
+                
+                    <th> Core Type </th>
+                
+                    <th> Total Duration(us) </th>
+                
+                    <th> Avg Duration(us) </th>
+                
+                    <th> Max Duration(us) </th>
+                
+                    <th> Min Duration(us) </th>
+                
+                    <th> Calls </th>
+                
+                    <th> Benchmark  Total Duration(us) </th>
+                
+                    <th> Benchmark  Avg Duration(us) </th>
+                
+                    <th> Benchmark  Max Duration(us) </th>
+                
+                    <th> Benchmark  Min Duration(us) </th>
+                
+                    <th> Benchmark  Calls </th>
+                
+                    <th> Diff Total Ratio </th>
+                
+                    <th> Diff Avg Ratio </th>
+                
+                </tr>
+
+                
+                <tr>
+                    
+                    <td>1</td>
+                    
+                    <td>GatherV2</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0</td>
+                    
+                    <td>1316.306</td>
+                    
+                    <td>658.153</td>
+                    
+                    <td>660.833</td>
+                    
+                    <td>655.473</td>
+                    
+                    <td>2</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>2</td>
+                    
+                    <td>EmbeddingDenseGradV2</td>
+                    
+                    <td>MIX_AIV</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0</td>
+                    
+                    <td>899.178</td>
+                    
+                    <td>449.589</td>
+                    
+                    <td>451.049</td>
+                    
+                    <td>448.129</td>
+                    
+                    <td>2</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>3</td>
+                    
+                    <td>MemSet</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>122.302</td>
+                    
+                    <td>10.192</td>
+                    
+                    <td>12.68</td>
+                    
+                    <td>6.56</td>
+                    
+                    <td>12</td>
+                    
+                    <td>761.135</td>
+                    
+                    <td>63.428</td>
+                    
+                    <td>337.366</td>
+                    
+                    <td>5.46</td>
+                    
+                    <td>12</td>
+                    
+                    <td>6.2234</td>
+                    
+                    <td>6.2233</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>39</td>
+                    
+                    <td>Range</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>49.381</td>
+                    
+                    <td>12.345</td>
+                    
+                    <td>12.661</td>
+                    
+                    <td>11.921</td>
+                    
+                    <td>4</td>
+                    
+                    <td>29.181</td>
+                    
+                    <td>14.591</td>
+                    
+                    <td>14.64</td>
+                    
+                    <td>14.54</td>
+                    
+                    <td>2</td>
+                    
+                    <td>0.5909</td>
+                    
+                    <td>1.1819</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>4</td>
+                    
+                    <td>GreaterEqual</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>16.901</td>
+                    
+                    <td>8.45</td>
+                    
+                    <td>8.56</td>
+                    
+                    <td>8.341</td>
+                    
+                    <td>2</td>
+                    
+                    <td>19.081</td>
+                    
+                    <td>9.54</td>
+                    
+                    <td>9.681</td>
+                    
+                    <td>9.4</td>
+                    
+                    <td>2</td>
+                    
+                    <td>1.129</td>
+                    
+                    <td>1.129</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>43</td>
+                    
+                    <td>Fill</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>15.881</td>
+                    
+                    <td>1.444</td>
+                    
+                    <td>1.6</td>
+                    
+                    <td>1.3</td>
+                    
+                    <td>11</td>
+                    
+                    <td>6.52</td>
+                    
+                    <td>1.63</td>
+                    
+                    <td>1.88</td>
+                    
+                    <td>1.42</td>
+                    
+                    <td>4</td>
+                    
+                    <td>0.4106</td>
+                    
+                    <td>1.1288</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>38</td>
+                    
+                    <td>LinearIndexV2</td>
+                    
+                    <td>MIX_AIV</td>
+                    
+                    <td>121.502</td>
+                    
+                    <td>20.25</td>
+                    
+                    <td>20.86</td>
+                    
+                    <td>18.881</td>
+                    
+                    <td>6</td>
+                    
+                    <td>90.682</td>
+                    
+                    <td>22.671</td>
+                    
+                    <td>24.34</td>
+                    
+                    <td>21.541</td>
+                    
+                    <td>4</td>
+                    
+                    <td>0.7463</td>
+                    
+                    <td>1.1196</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>5</td>
+                    
+                    <td>Less</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>21.441</td>
+                    
+                    <td>10.72</td>
+                    
+                    <td>11.28</td>
+                    
+                    <td>10.161</td>
+                    
+                    <td>2</td>
+                    
+                    <td>23.921</td>
+                    
+                    <td>11.96</td>
+                    
+                    <td>12.581</td>
+                    
+                    <td>11.34</td>
+                    
+                    <td>2</td>
+                    
+                    <td>1.1157</td>
+                    
+                    <td>1.1157</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>6</td>
+                    
+                    <td>Addcmul</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>11961.336</td>
+                    
+                    <td>35.18</td>
+                    
+                    <td>889.337</td>
+                    
+                    <td>2.0</td>
+                    
+                    <td>340</td>
+                    
+                    <td>12491.693</td>
+                    
+                    <td>36.958</td>
+                    
+                    <td>895.998</td>
+                    
+                    <td>2.04</td>
+                    
+                    <td>338</td>
+                    
+                    <td>1.0443</td>
+                    
+                    <td>1.0505</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>7</td>
+                    
+                    <td>Addcdiv</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>13155.317</td>
+                    
+                    <td>38.692</td>
+                    
+                    <td>1144.902</td>
+                    
+                    <td>1.94</td>
+                    
+                    <td>340</td>
+                    
+                    <td>13414.21</td>
+                    
+                    <td>39.687</td>
+                    
+                    <td>1141.842</td>
+                    
+                    <td>1.98</td>
+                    
+                    <td>338</td>
+                    
+                    <td>1.0197</td>
+                    
+                    <td>1.0257</td>
+                    
+                </tr>
+                
+            </table>
+
+        </div>
+</div>
+
+            
+            
+<div class="collapsible">
+      <h2 class="collapsible-header" style="background-color: ;">Kernel compare of Rank14 Step0 and Rank10 Step0</h2>
+      <div class="collapsible-content">
+            <a style="font-weight: bold" id="timeline_api_instruction_issue">Issue: Kernel compare of Rank14 Step0 and Rank10 Step0. Only show 10 rows here, see mstt_advisor*.xlsx for details</a>
+            <br><br>
+            <table>
+                <tr>
+                
+                    <th> Order Id </th>
+                
+                    <th> Kernel Type </th>
+                
+                    <th> Core Type </th>
+                
+                    <th> Total Duration(us) </th>
+                
+                    <th> Avg Duration(us) </th>
+                
+                    <th> Max Duration(us) </th>
+                
+                    <th> Min Duration(us) </th>
+                
+                    <th> Calls </th>
+                
+                    <th> Benchmark  Total Duration(us) </th>
+                
+                    <th> Benchmark  Avg Duration(us) </th>
+                
+                    <th> Benchmark  Max Duration(us) </th>
+                
+                    <th> Benchmark  Min Duration(us) </th>
+                
+                    <th> Benchmark  Calls </th>
+                
+                    <th> Diff Total Ratio </th>
+                
+                    <th> Diff Avg Ratio </th>
+                
+                </tr>
+
+                
+                <tr>
+                    
+                    <td>1</td>
+                    
+                    <td>GatherV2</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0</td>
+                    
+                    <td>1316.306</td>
+                    
+                    <td>658.153</td>
+                    
+                    <td>660.833</td>
+                    
+                    <td>655.473</td>
+                    
+                    <td>2</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>2</td>
+                    
+                    <td>EmbeddingDenseGradV2</td>
+                    
+                    <td>MIX_AIV</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0</td>
+                    
+                    <td>899.178</td>
+                    
+                    <td>449.589</td>
+                    
+                    <td>451.049</td>
+                    
+                    <td>448.129</td>
+                    
+                    <td>2</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>3</td>
+                    
+                    <td>MemSet</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>122.302</td>
+                    
+                    <td>10.192</td>
+                    
+                    <td>12.68</td>
+                    
+                    <td>6.56</td>
+                    
+                    <td>12</td>
+                    
+                    <td>761.135</td>
+                    
+                    <td>63.428</td>
+                    
+                    <td>337.366</td>
+                    
+                    <td>5.46</td>
+                    
+                    <td>12</td>
+                    
+                    <td>6.2234</td>
+                    
+                    <td>6.2233</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>39</td>
+                    
+                    <td>Range</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>49.381</td>
+                    
+                    <td>12.345</td>
+                    
+                    <td>12.661</td>
+                    
+                    <td>11.921</td>
+                    
+                    <td>4</td>
+                    
+                    <td>29.181</td>
+                    
+                    <td>14.591</td>
+                    
+                    <td>14.64</td>
+                    
+                    <td>14.54</td>
+                    
+                    <td>2</td>
+                    
+                    <td>0.5909</td>
+                    
+                    <td>1.1819</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>4</td>
+                    
+                    <td>GreaterEqual</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>16.901</td>
+                    
+                    <td>8.45</td>
+                    
+                    <td>8.56</td>
+                    
+                    <td>8.341</td>
+                    
+                    <td>2</td>
+                    
+                    <td>19.081</td>
+                    
+                    <td>9.54</td>
+                    
+                    <td>9.681</td>
+                    
+                    <td>9.4</td>
+                    
+                    <td>2</td>
+                    
+                    <td>1.129</td>
+                    
+                    <td>1.129</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>43</td>
+                    
+                    <td>Fill</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>15.881</td>
+                    
+                    <td>1.444</td>
+                    
+                    <td>1.6</td>
+                    
+                    <td>1.3</td>
+                    
+                    <td>11</td>
+                    
+                    <td>6.52</td>
+                    
+                    <td>1.63</td>
+                    
+                    <td>1.88</td>
+                    
+                    <td>1.42</td>
+                    
+                    <td>4</td>
+                    
+                    <td>0.4106</td>
+                    
+                    <td>1.1288</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>38</td>
+                    
+                    <td>LinearIndexV2</td>
+                    
+                    <td>MIX_AIV</td>
+                    
+                    <td>121.502</td>
+                    
+                    <td>20.25</td>
+                    
+                    <td>20.86</td>
+                    
+                    <td>18.881</td>
+                    
+                    <td>6</td>
+                    
+                    <td>90.682</td>
+                    
+                    <td>22.671</td>
+                    
+                    <td>24.34</td>
+                    
+                    <td>21.541</td>
+                    
+                    <td>4</td>
+                    
+                    <td>0.7463</td>
+                    
+                    <td>1.1196</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>5</td>
+                    
+                    <td>Less</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>21.441</td>
+                    
+                    <td>10.72</td>
+                    
+                    <td>11.28</td>
+                    
+                    <td>10.161</td>
+                    
+                    <td>2</td>
+                    
+                    <td>23.921</td>
+                    
+                    <td>11.96</td>
+                    
+                    <td>12.581</td>
+                    
+                    <td>11.34</td>
+                    
+                    <td>2</td>
+                    
+                    <td>1.1157</td>
+                    
+                    <td>1.1157</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>6</td>
+                    
+                    <td>Addcmul</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>11961.336</td>
+                    
+                    <td>35.18</td>
+                    
+                    <td>889.337</td>
+                    
+                    <td>2.0</td>
+                    
+                    <td>340</td>
+                    
+                    <td>12491.693</td>
+                    
+                    <td>36.958</td>
+                    
+                    <td>895.998</td>
+                    
+                    <td>2.04</td>
+                    
+                    <td>338</td>
+                    
+                    <td>1.0443</td>
+                    
+                    <td>1.0505</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>7</td>
+                    
+                    <td>Addcdiv</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>13155.317</td>
+                    
+                    <td>38.692</td>
+                    
+                    <td>1144.902</td>
+                    
+                    <td>1.94</td>
+                    
+                    <td>340</td>
+                    
+                    <td>13414.21</td>
+                    
+                    <td>39.687</td>
+                    
+                    <td>1141.842</td>
+                    
+                    <td>1.98</td>
+                    
+                    <td>338</td>
+                    
+                    <td>1.0197</td>
+                    
+                    <td>1.0257</td>
+                    
+                </tr>
+                
+            </table>
+
+        </div>
+</div>
+
+            
+            
+<div class="collapsible">
+      <h2 class="collapsible-header" style="background-color: ;">Kernel compare of Rank15 Step0 and Rank11 Step0</h2>
+      <div class="collapsible-content">
+            <a style="font-weight: bold" id="timeline_api_instruction_issue">Issue: Kernel compare of Rank15 Step0 and Rank11 Step0. Only show 10 rows here, see mstt_advisor*.xlsx for details</a>
+            <br><br>
+            <table>
+                <tr>
+                
+                    <th> Order Id </th>
+                
+                    <th> Kernel Type </th>
+                
+                    <th> Core Type </th>
+                
+                    <th> Total Duration(us) </th>
+                
+                    <th> Avg Duration(us) </th>
+                
+                    <th> Max Duration(us) </th>
+                
+                    <th> Min Duration(us) </th>
+                
+                    <th> Calls </th>
+                
+                    <th> Benchmark  Total Duration(us) </th>
+                
+                    <th> Benchmark  Avg Duration(us) </th>
+                
+                    <th> Benchmark  Max Duration(us) </th>
+                
+                    <th> Benchmark  Min Duration(us) </th>
+                
+                    <th> Benchmark  Calls </th>
+                
+                    <th> Diff Total Ratio </th>
+                
+                    <th> Diff Avg Ratio </th>
+                
+                </tr>
+
+                
+                <tr>
+                    
+                    <td>1</td>
+                    
+                    <td>GatherV2</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0</td>
+                    
+                    <td>1316.306</td>
+                    
+                    <td>658.153</td>
+                    
+                    <td>660.833</td>
+                    
+                    <td>655.473</td>
+                    
+                    <td>2</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>2</td>
+                    
+                    <td>EmbeddingDenseGradV2</td>
+                    
+                    <td>MIX_AIV</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0</td>
+                    
+                    <td>899.178</td>
+                    
+                    <td>449.589</td>
+                    
+                    <td>451.049</td>
+                    
+                    <td>448.129</td>
+                    
+                    <td>2</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>3</td>
+                    
+                    <td>MemSet</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>122.302</td>
+                    
+                    <td>10.192</td>
+                    
+                    <td>12.68</td>
+                    
+                    <td>6.56</td>
+                    
+                    <td>12</td>
+                    
+                    <td>761.135</td>
+                    
+                    <td>63.428</td>
+                    
+                    <td>337.366</td>
+                    
+                    <td>5.46</td>
+                    
+                    <td>12</td>
+                    
+                    <td>6.2234</td>
+                    
+                    <td>6.2233</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>39</td>
+                    
+                    <td>Range</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>49.381</td>
+                    
+                    <td>12.345</td>
+                    
+                    <td>12.661</td>
+                    
+                    <td>11.921</td>
+                    
+                    <td>4</td>
+                    
+                    <td>29.181</td>
+                    
+                    <td>14.591</td>
+                    
+                    <td>14.64</td>
+                    
+                    <td>14.54</td>
+                    
+                    <td>2</td>
+                    
+                    <td>0.5909</td>
+                    
+                    <td>1.1819</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>4</td>
+                    
+                    <td>GreaterEqual</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>16.901</td>
+                    
+                    <td>8.45</td>
+                    
+                    <td>8.56</td>
+                    
+                    <td>8.341</td>
+                    
+                    <td>2</td>
+                    
+                    <td>19.081</td>
+                    
+                    <td>9.54</td>
+                    
+                    <td>9.681</td>
+                    
+                    <td>9.4</td>
+                    
+                    <td>2</td>
+                    
+                    <td>1.129</td>
+                    
+                    <td>1.129</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>43</td>
+                    
+                    <td>Fill</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>15.881</td>
+                    
+                    <td>1.444</td>
+                    
+                    <td>1.6</td>
+                    
+                    <td>1.3</td>
+                    
+                    <td>11</td>
+                    
+                    <td>6.52</td>
+                    
+                    <td>1.63</td>
+                    
+                    <td>1.88</td>
+                    
+                    <td>1.42</td>
+                    
+                    <td>4</td>
+                    
+                    <td>0.4106</td>
+                    
+                    <td>1.1288</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>38</td>
+                    
+                    <td>LinearIndexV2</td>
+                    
+                    <td>MIX_AIV</td>
+                    
+                    <td>121.502</td>
+                    
+                    <td>20.25</td>
+                    
+                    <td>20.86</td>
+                    
+                    <td>18.881</td>
+                    
+                    <td>6</td>
+                    
+                    <td>90.682</td>
+                    
+                    <td>22.671</td>
+                    
+                    <td>24.34</td>
+                    
+                    <td>21.541</td>
+                    
+                    <td>4</td>
+                    
+                    <td>0.7463</td>
+                    
+                    <td>1.1196</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>5</td>
+                    
+                    <td>Less</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>21.441</td>
+                    
+                    <td>10.72</td>
+                    
+                    <td>11.28</td>
+                    
+                    <td>10.161</td>
+                    
+                    <td>2</td>
+                    
+                    <td>23.921</td>
+                    
+                    <td>11.96</td>
+                    
+                    <td>12.581</td>
+                    
+                    <td>11.34</td>
+                    
+                    <td>2</td>
+                    
+                    <td>1.1157</td>
+                    
+                    <td>1.1157</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>6</td>
+                    
+                    <td>Addcmul</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>11961.336</td>
+                    
+                    <td>35.18</td>
+                    
+                    <td>889.337</td>
+                    
+                    <td>2.0</td>
+                    
+                    <td>340</td>
+                    
+                    <td>12491.693</td>
+                    
+                    <td>36.958</td>
+                    
+                    <td>895.998</td>
+                    
+                    <td>2.04</td>
+                    
+                    <td>338</td>
+                    
+                    <td>1.0443</td>
+                    
+                    <td>1.0505</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>7</td>
+                    
+                    <td>Addcdiv</td>
+                    
+                    <td>AI_VECTOR_CORE</td>
+                    
+                    <td>13155.317</td>
+                    
+                    <td>38.692</td>
+                    
+                    <td>1144.902</td>
+                    
+                    <td>1.94</td>
+                    
+                    <td>340</td>
+                    
+                    <td>13414.21</td>
+                    
+                    <td>39.687</td>
+                    
+                    <td>1141.842</td>
+                    
+                    <td>1.98</td>
+                    
+                    <td>338</td>
+                    
+                    <td>1.0197</td>
+                    
+                    <td>1.0257</td>
+                    
+                </tr>
+                
+            </table>
+
+        </div>
+</div>
+
+            
+            
+<div class="collapsible">
+      <h2 class="collapsible-header" style="background-color: ;">Api compare of Rank6 Step0 and Rank11 Step0</h2>
+      <div class="collapsible-content">
+            <a style="font-weight: bold" id="timeline_api_instruction_issue">Issue: Api compare of Rank6 Step0 and Rank11 Step0. Only show 10 rows here, see mstt_advisor*.xlsx for details</a>
+            <br><br>
+            <table>
+                <tr>
+                
+                    <th> Order Id </th>
+                
+                    <th> api name </th>
+                
+                    <th> Total Duration(ms) </th>
+                
+                    <th> Self Time(ms) </th>
+                
+                    <th> Avg Duration(ms) </th>
+                
+                    <th> Calls </th>
+                
+                    <th> Benchmark  Total Duration(ms) </th>
+                
+                    <th> Benchmark  Self Time(ms) </th>
+                
+                    <th> Benchmark  Avg Duration(ms) </th>
+                
+                    <th> Benchmark  Calls </th>
+                
+                    <th> Diff Total Ratio </th>
+                
+                    <th> Diff Self Ratio </th>
+                
+                    <th> Diff Avg Ratio </th>
+                
+                    <th> Diff Calls Ratio </th>
+                
+                </tr>
+
+                
+                <tr>
+                    
+                    <td>229</td>
+                    
+                    <td>aten::embedding</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0</td>
+                    
+                    <td>14.49</td>
+                    
+                    <td>13.97</td>
+                    
+                    <td>7.25</td>
+                    
+                    <td>2</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>230</td>
+                    
+                    <td>_ReduceForward</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0</td>
+                    
+                    <td>3.49</td>
+                    
+                    <td>1.66</td>
+                    
+                    <td>1.75</td>
+                    
+                    <td>2</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>231</td>
+                    
+                    <td>_SplitForwardGatherBackward</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0</td>
+                    
+                    <td>4.24</td>
+                    
+                    <td>1.03</td>
+                    
+                    <td>2.12</td>
+                    
+                    <td>2</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>232</td>
+                    
+                    <td>autograd::engine::evaluate_function: _SplitForwardGatherBackwardBackward</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0</td>
+                    
+                    <td>3.28</td>
+                    
+                    <td>0.05</td>
+                    
+                    <td>1.64</td>
+                    
+                    <td>2</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>233</td>
+                    
+                    <td>autograd::engine::evaluate_function: _ReduceForwardBackward</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0</td>
+                    
+                    <td>0.08</td>
+                    
+                    <td>0.02</td>
+                    
+                    <td>0.04</td>
+                    
+                    <td>2</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>234</td>
+                    
+                    <td>autograd::engine::evaluate_function: torch::autograd::CopySlices</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0</td>
+                    
+                    <td>38440.37</td>
+                    
+                    <td>0.24</td>
+                    
+                    <td>19220.19</td>
+                    
+                    <td>2</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>235</td>
+                    
+                    <td>autograd::engine::evaluate_function: EmbeddingBackward0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0</td>
+                    
+                    <td>5.91</td>
+                    
+                    <td>0.06</td>
+                    
+                    <td>2.96</td>
+                    
+                    <td>2</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>236</td>
+                    
+                    <td>aclnnEmbedding</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0</td>
+                    
+                    <td>0.18</td>
+                    
+                    <td>0.18</td>
+                    
+                    <td>0.09</td>
+                    
+                    <td>2</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>237</td>
+                    
+                    <td>_SplitForwardGatherBackwardBackward</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0</td>
+                    
+                    <td>3.24</td>
+                    
+                    <td>0.39</td>
+                    
+                    <td>1.62</td>
+                    
+                    <td>2</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>238</td>
+                    
+                    <td>_ReduceForwardBackward</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0.0</td>
+                    
+                    <td>0</td>
+                    
+                    <td>0.06</td>
+                    
+                    <td>0.06</td>
+                    
+                    <td>0.03</td>
+                    
+                    <td>2</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                    <td>inf</td>
+                    
+                </tr>
+                
+            </table>
+
+        </div>
+</div>
+
+            
+        </div>
+    </div>
+    
+
+    
+
+    <div class="collapsible">
+      <h2 class="collapsible-header">performance problem analysis</h2>
+      <div class="collapsible-content">
+
+
+      
+        <div class="collapsible">
+          <h2 class="collapsible-header">memory</h2>
+          <div class="collapsible-content">
+            
+            <div class="collapsible">
+  <h2 class="collapsible-header" style="background-color: #65c294;">Memory Operator Issues</h2>
+  <div class="collapsible-content">
+  
+  <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 6. </a>
+  
+    <a style="font-weight: bold" id="timeline_api_instruction">发现了243个AscendCL@aclMallocMemInner算子，花费55469.200000000004us，这将导致大量的空闲时间。 </a>
+    <table>
+        <tr>
+            <th>Suggestions</th>
+        </tr>
+
+        
+            <tr>
+                <td>1. For AscendCL@aclMallocMemInner: 请通过命令'export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True'设置环境变量，然后开始训练任务。</td>
+            </tr>
+        
+    </table>
+
+  </div>
+</div>
+            
+          </div>
+        </div>
+      
+        <div class="collapsible">
+          <h2 class="collapsible-header">computation</h2>
+          <div class="collapsible-content">
+            
+            
+<div class="collapsible">
+    <h2 class="collapsible-header">Pipeline Parallel Stages Issues</h2>
+    <div class="collapsible-content">
+      
+      <div class="collapsible">
+          <h2 class="collapsible-header">stage-0</h2>
+          <div class="collapsible-content">
+                <a style="font-weight: bold" id="timeline_api_instruction">Description: analysis for slow rank 4 in current stage</a>
+                <br><br>
+                
+                    <div class="collapsible">
+    <h2 class="collapsible-header" style="background-color: #65c294;">Operator Dynamic Shape Issues</h2>
+    <div class="collapsible-content">
+        
+        <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 4. </a>
+        
+        <table>
+            <tr>
+                <th>Description</th>
+                <th>Suggestion</th>
+            </tr>
+            <tr>
+                <td>找到所有是动态shape的算子</td>
+                <td>在python脚本入口加入以下代码关闭在线编译：<br>'torch_npu.npu.set_compile_mode(jit_compile=False) <br> torch_npu.npu.config.allow_internal_format = False' <br>详细信息请参考：<a href=https://www.hiascend.com/document/detail/zh/canncommercial/700/modeldevpt/ptmigr/AImpug_000060.html target='_blank'>链接</a></td>
+            </tr>
+        </table>
+    </div>
+</div>
+                
+                    <div class="collapsible">
+    <h2 class="collapsible-header" style="background-color: #65c294;">AICPU Issues</h2>
+    <div class="collapsible-content">
+        
+        <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 4. </a>
+        
+        <table>
+            <tr>
+                <th>Description</th>
+                <th>Suggestion</th>
+                <th>Elapsed Time(us)</th>
+                <th>Time Ratio</th>
+            </tr>
+            <tr>
+                <td>一些算子和任务执行时间超过了20us，比如：
+IndexPut</td>
+                <td>修改代码避免使用aicpu类算子</td>
+                <td>12336.79</td>
+                <td>0.0003</td>
+            </tr>
+        </table>
+        <div class="collapsible">
+            
+            <div class="collapsible-header">IndexPut</div>
+            <div class="collapsible-content">
+                <table>
+                    <tr>
+                        <th>Operator Type</th>
+                        <th>Counts</th>
+                        <th>Elapsed Time(us)</th>
+                    </tr>
+                    <tr>
+                        <td>IndexPut</td>
+                        <td>2</td>
+                        <td>12336.79</td>
+                    </tr>
+                </table>
+                <div class="collapsible">
+                    
+                    <div class="collapsible-header">
+                        <b>IndexPut</b> | Input DType:(INT64;INT64;INT64;INT64) | Output DType:(INT64) | Counts:2 | Elapsed Time(us):12336.79
+                    </div>
+                    <div class="collapsible-content">
+                        
+                        <div>
+                            
+                            <p>
+                                <b>Suggestion 1:</b> <u>请参考<a href='https://gitee.com/ascend/mstt/blob/master/profiler/msprof_analyze/advisor/doc/Samples%20of%20AI%20CPU%20Operator%20Replacement.md' target='_blank'>链接</a>修改源码，尝试用等价的算子替换indexput算子。</u>
+                            </p>
+                            
+                        </div>
+                        
+                        <div class="separator"></div>
+                        <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(84): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(249): cross_entropy_1d;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(334): dist_cross_entropy;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(360): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): <module></a>
+                    </div>
+                    
+                </div>
+            </div>
+            
+        </div>
+    </div>
+</div>
+                
+                    
+<div class="collapsible">
+      <h2 class="collapsible-header" style="background-color: #B5495B;">AI Core Frequency Issues</h2>
+      <div class="collapsible-content">
+            
+            <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 4. </a>
+            
+            <a style="font-weight: bold" id="timeline_api_instruction_issue">Issue: 对于4号卡，在降频期间发现1个算子，频率降低比例超过了0.05。 Only show 10 operators here, see latest mstt_advisor.xlsx for details.</a>
+            <br>
+            <a style="font-weight: bold" id="timeline_api_suggestion">Suggestion: </a>
+            <br><br>
+            <table>
+                <tr>
+                
+                    <th> Operator name </th>
+                
+                    <th> Count </th>
+                
+                    <th> Total duration(us) </th>
+                
+                    <th> AI CORE frequency decreased ratio </th>
+                
+                    <th> Average frequency </th>
+                
+                    <th> Max frequency </th>
+                
+                    <th> Min frequency </th>
+                
+                </tr>
+
+                
+                <tr>
+                    
+                    <td>aclnnInplaceFillScalar_FillAiCore_Fill</td>
+                    
+                    <td>11</td>
+                    
+                    <td>15.88</td>
+                    
+                    <td>5.05%</td>
+                    
+                    <td>1709.09</td>
+                    
+                    <td>1800.0</td>
+                    
+                    <td>800.0</td>
+                    
+                </tr>
+                
+            </table>
+
+        </div>
+</div>
+
+                
+                    
+<style>
+    .typecol {
+        width: 30%;
+    }
+</style>
+<div class="collapsible">
+    <h2 class="collapsible-header" style="background-color: #65c294;">AI Core Performance Analysis</h2>
+    <div class="collapsible-content">
+        
+        
+        
+        
+        <a style="font-weight: bold" id="cube_analyze">Cube算子相关分析，参考如下: </a>
+        <br>
+        <table>
+            <tr>
+                <th class="typecol">类别</th>
+                <th>描述及建议</th>
+            </tr>
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            <tr>
+                <td>性能优化算子集合</td>
+                <td>
+                <table>
+                <tr><th>name</th><th>shape</th><th>dtype</th><th> 参考性能优化空间</th></tr>
+                    <tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;4736,3584</td><td>DT_BF16;DT_BF16</td><td>9.59%</td></tr><tr><td>aclnnAddmm_MatMulCommon_MatMulV2</td><td>16384,3584;896,3584;896</td><td>DT_BF16;DT_BF16;FLOAT</td><td>9.58%</td></tr><tr><td>aclnnAddmm_MatMulCommon_MatMulV2</td><td>16384,3584;128,3584;128</td><td>DT_BF16;DT_BF16;FLOAT</td><td>4.92%</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;38016,3584</td><td>DT_BF16;DT_BF16</td><td>1.9%</td></tr></tr>
+                </table>
+                </td>
+            </tr>
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            <tr>
+                <td>不亲和算子集合</td>
+                <td>
+                <table>
+                <tr><th>name</th><th>shape</th><th>dtype</th><th> 不亲和类型为</th></tr>
+                    <tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;16384,3584</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;4736,3584</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;16384,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;3584,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;3584,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr></tr>
+                </table>
+                </td>
+            </tr>
+            
+        </table>
+        
+
+        
+        <a style="font-weight: bold" id="fa_analyze">FA算子相关分析，参考如下: </a>
+        <br>
+        <table>
+            <tr>
+                <th class="typecol">类别</th>
+                <th>描述及建议</th>
+            </tr>
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            <tr>
+                <td>bound算子集合</td>
+                <td>
+                <table>
+                <tr><th>name</th><th>shape</th><th>dtype</th><th> bound类型为</th></tr>
+                    <tr><tr><td>aclnnFlashAttentionScoreGrad_FlashAttentionScoreGrad_FlashAttentionScoreGrad</td><td>1,7,16384,128;1,7,16384,128;1,7,16384,128;1,7,16384,128;16384,16384;1,7,16384,8;1,7,16384,8;;1,7,16384,128;</td><td>DT_BF16;DT_BF16;DT_BF16;DT_BF16;BOOL;FLOAT;FLOAT;DT_BF16;DT_BF16;INT64</td><td>fixpipe</td></tr><tr><td>aclnnFlashAttentionScore_FlashAttentionScore_FlashAttentionScore</td><td>1,7,16384,128;1,7,16384,128;1,7,16384,128;;;;16384,16384;;;;;</td><td>None</td><td>vec</td></tr></tr>
+                </table>
+                </td>
+            </tr>
+            
+            
+            
+            
+        </table>
+        
+
+        
+    </div>
+</div>
+
+                
+          </div>
+      </div>
+      
+      <div class="collapsible">
+          <h2 class="collapsible-header">stage-1</h2>
+          <div class="collapsible-content">
+                <a style="font-weight: bold" id="timeline_api_instruction">Description: analysis for slow rank 5 in current stage</a>
+                <br><br>
+                
+                    <div class="collapsible">
+    <h2 class="collapsible-header" style="background-color: #65c294;">Operator Dynamic Shape Issues</h2>
+    <div class="collapsible-content">
+        
+        <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 5. </a>
+        
+        <table>
+            <tr>
+                <th>Description</th>
+                <th>Suggestion</th>
+            </tr>
+            <tr>
+                <td>找到所有是动态shape的算子</td>
+                <td>在python脚本入口加入以下代码关闭在线编译：<br>'torch_npu.npu.set_compile_mode(jit_compile=False) <br> torch_npu.npu.config.allow_internal_format = False' <br>详细信息请参考：<a href=https://www.hiascend.com/document/detail/zh/canncommercial/700/modeldevpt/ptmigr/AImpug_000060.html target='_blank'>链接</a></td>
+            </tr>
+        </table>
+    </div>
+</div>
+                
+                    <div class="collapsible">
+    <h2 class="collapsible-header" style="background-color: #65c294;">AICPU Issues</h2>
+    <div class="collapsible-content">
+        
+        <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 5. </a>
+        
+        <table>
+            <tr>
+                <th>Description</th>
+                <th>Suggestion</th>
+                <th>Elapsed Time(us)</th>
+                <th>Time Ratio</th>
+            </tr>
+            <tr>
+                <td>一些算子和任务执行时间超过了20us，比如：
+IndexPut</td>
+                <td>修改代码避免使用aicpu类算子</td>
+                <td>12350.77</td>
+                <td>0.0002</td>
+            </tr>
+        </table>
+        <div class="collapsible">
+            
+            <div class="collapsible-header">IndexPut</div>
+            <div class="collapsible-content">
+                <table>
+                    <tr>
+                        <th>Operator Type</th>
+                        <th>Counts</th>
+                        <th>Elapsed Time(us)</th>
+                    </tr>
+                    <tr>
+                        <td>IndexPut</td>
+                        <td>2</td>
+                        <td>12350.77</td>
+                    </tr>
+                </table>
+                <div class="collapsible">
+                    
+                    <div class="collapsible-header">
+                        <b>IndexPut</b> | Input DType:(INT64;INT64;INT64;INT64) | Output DType:(INT64) | Counts:2 | Elapsed Time(us):12350.77
+                    </div>
+                    <div class="collapsible-content">
+                        
+                        <div>
+                            
+                            <p>
+                                <b>Suggestion 1:</b> <u>请参考<a href='https://gitee.com/ascend/mstt/blob/master/profiler/msprof_analyze/advisor/doc/Samples%20of%20AI%20CPU%20Operator%20Replacement.md' target='_blank'>链接</a>修改源码，尝试用等价的算子替换indexput算子。</u>
+                            </p>
+                            
+                        </div>
+                        
+                        <div class="separator"></div>
+                        <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(84): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(249): cross_entropy_1d;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(334): dist_cross_entropy;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(360): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): <module></a>
+                    </div>
+                    
+                </div>
+            </div>
+            
+        </div>
+    </div>
+</div>
+                
+                    
+<style>
+    .typecol {
+        width: 30%;
+    }
+</style>
+<div class="collapsible">
+    <h2 class="collapsible-header" style="background-color: #65c294;">AI Core Performance Analysis</h2>
+    <div class="collapsible-content">
+        
+        
+        
+        
+        <a style="font-weight: bold" id="cube_analyze">Cube算子相关分析，参考如下: </a>
+        <br>
+        <table>
+            <tr>
+                <th class="typecol">类别</th>
+                <th>描述及建议</th>
+            </tr>
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            <tr>
+                <td>性能优化算子集合</td>
+                <td>
+                <table>
+                <tr><th>name</th><th>shape</th><th>dtype</th><th> 参考性能优化空间</th></tr>
+                    <tr><tr><td>aclnnAddmm_MatMulCommon_MatMulV2</td><td>16384,3584;896,3584;896</td><td>DT_BF16;DT_BF16;FLOAT</td><td>9.65%</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;4736,3584</td><td>DT_BF16;DT_BF16</td><td>9.49%</td></tr><tr><td>aclnnAddmm_MatMulCommon_MatMulV2</td><td>16384,3584;128,3584;128</td><td>DT_BF16;DT_BF16;FLOAT</td><td>4.55%</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;38016,3584</td><td>DT_BF16;DT_BF16</td><td>1.85%</td></tr></tr>
+                </table>
+                </td>
+            </tr>
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            <tr>
+                <td>不亲和算子集合</td>
+                <td>
+                <table>
+                <tr><th>name</th><th>shape</th><th>dtype</th><th> 不亲和类型为</th></tr>
+                    <tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;16384,3584</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;4736,3584</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;16384,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;3584,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;3584,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr></tr>
+                </table>
+                </td>
+            </tr>
+            
+        </table>
+        
+
+        
+        <a style="font-weight: bold" id="fa_analyze">FA算子相关分析，参考如下: </a>
+        <br>
+        <table>
+            <tr>
+                <th class="typecol">类别</th>
+                <th>描述及建议</th>
+            </tr>
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            <tr>
+                <td>bound算子集合</td>
+                <td>
+                <table>
+                <tr><th>name</th><th>shape</th><th>dtype</th><th> bound类型为</th></tr>
+                    <tr><tr><td>aclnnFlashAttentionScoreGrad_FlashAttentionScoreGrad_FlashAttentionScoreGrad</td><td>1,7,16384,128;1,7,16384,128;1,7,16384,128;1,7,16384,128;16384,16384;1,7,16384,8;1,7,16384,8;;1,7,16384,128;</td><td>DT_BF16;DT_BF16;DT_BF16;DT_BF16;BOOL;FLOAT;FLOAT;DT_BF16;DT_BF16;INT64</td><td>fixpipe</td></tr><tr><td>aclnnFlashAttentionScore_FlashAttentionScore_FlashAttentionScore</td><td>1,7,16384,128;1,7,16384,128;1,7,16384,128;;;;16384,16384;;;;;</td><td>None</td><td>vec</td></tr></tr>
+                </table>
+                </td>
+            </tr>
+            
+            
+            
+            
+        </table>
+        
+
+        
+    </div>
+</div>
+
+                
+          </div>
+      </div>
+      
+      <div class="collapsible">
+          <h2 class="collapsible-header">stage-2</h2>
+          <div class="collapsible-content">
+                <a style="font-weight: bold" id="timeline_api_instruction">Description: analysis for slow rank 6 in current stage</a>
+                <br><br>
+                
+                    <div class="collapsible">
+    <h2 class="collapsible-header" style="background-color: #65c294;">Operator Dynamic Shape Issues</h2>
+    <div class="collapsible-content">
+        
+        <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 6. </a>
+        
+        <table>
+            <tr>
+                <th>Description</th>
+                <th>Suggestion</th>
+            </tr>
+            <tr>
+                <td>找到所有是动态shape的算子</td>
+                <td>在python脚本入口加入以下代码关闭在线编译：<br>'torch_npu.npu.set_compile_mode(jit_compile=False) <br> torch_npu.npu.config.allow_internal_format = False' <br>详细信息请参考：<a href=https://www.hiascend.com/document/detail/zh/canncommercial/700/modeldevpt/ptmigr/AImpug_000060.html target='_blank'>链接</a></td>
+            </tr>
+        </table>
+    </div>
+</div>
+                
+                    <div class="collapsible">
+    <h2 class="collapsible-header" style="background-color: #65c294;">AICPU Issues</h2>
+    <div class="collapsible-content">
+        
+        <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 6. </a>
+        
+        <table>
+            <tr>
+                <th>Description</th>
+                <th>Suggestion</th>
+                <th>Elapsed Time(us)</th>
+                <th>Time Ratio</th>
+            </tr>
+            <tr>
+                <td>一些算子和任务执行时间超过了20us，比如：
+IndexPut</td>
+                <td>修改代码避免使用aicpu类算子</td>
+                <td>12259.62</td>
+                <td>0.0024</td>
+            </tr>
+        </table>
+        <div class="collapsible">
+            
+            <div class="collapsible-header">IndexPut</div>
+            <div class="collapsible-content">
+                <table>
+                    <tr>
+                        <th>Operator Type</th>
+                        <th>Counts</th>
+                        <th>Elapsed Time(us)</th>
+                    </tr>
+                    <tr>
+                        <td>IndexPut</td>
+                        <td>2</td>
+                        <td>12259.62</td>
+                    </tr>
+                </table>
+                <div class="collapsible">
+                    
+                    <div class="collapsible-header">
+                        <b>IndexPut</b> | Input DType:(INT64;INT64;INT64;INT64) | Output DType:(INT64) | Counts:2 | Elapsed Time(us):12259.62
+                    </div>
+                    <div class="collapsible-content">
+                        
+                        <div>
+                            
+                            <p>
+                                <b>Suggestion 1:</b> <u>请参考<a href='https://gitee.com/ascend/mstt/blob/master/profiler/msprof_analyze/advisor/doc/Samples%20of%20AI%20CPU%20Operator%20Replacement.md' target='_blank'>链接</a>修改源码，尝试用等价的算子替换indexput算子。</u>
+                            </p>
+                            
+                        </div>
+                        
+                        <div class="separator"></div>
+                        <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(84): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(249): cross_entropy_1d;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(334): dist_cross_entropy;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(360): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): <module></a>
+                    </div>
+                    
+                </div>
+            </div>
+            
+        </div>
+    </div>
+</div>
+                
+                    
+<style>
+    .typecol {
+        width: 30%;
+    }
+</style>
+<div class="collapsible">
+    <h2 class="collapsible-header" style="background-color: #65c294;">AI Core Performance Analysis</h2>
+    <div class="collapsible-content">
+        
+        
+        
+        
+        <a style="font-weight: bold" id="cube_analyze">Cube算子相关分析，参考如下: </a>
+        <br>
+        <table>
+            <tr>
+                <th class="typecol">类别</th>
+                <th>描述及建议</th>
+            </tr>
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            <tr>
+                <td>性能优化算子集合</td>
+                <td>
+                <table>
+                <tr><th>name</th><th>shape</th><th>dtype</th><th> 参考性能优化空间</th></tr>
+                    <tr><tr><td>aclnnAddmm_MatMulCommon_MatMulV2</td><td>16384,3584;896,3584;896</td><td>DT_BF16;DT_BF16;FLOAT</td><td>9.69%</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;4736,3584</td><td>DT_BF16;DT_BF16</td><td>9.49%</td></tr><tr><td>aclnnAddmm_MatMulCommon_MatMulV2</td><td>16384,3584;128,3584;128</td><td>DT_BF16;DT_BF16;FLOAT</td><td>4.94%</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;38016,3584</td><td>DT_BF16;DT_BF16</td><td>1.95%</td></tr></tr>
+                </table>
+                </td>
+            </tr>
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            <tr>
+                <td>不亲和算子集合</td>
+                <td>
+                <table>
+                <tr><th>name</th><th>shape</th><th>dtype</th><th> 不亲和类型为</th></tr>
+                    <tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;16384,3584</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;4736,3584</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;16384,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;3584,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;3584,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr></tr>
+                </table>
+                </td>
+            </tr>
+            
+        </table>
+        
+
+        
+        <a style="font-weight: bold" id="fa_analyze">FA算子相关分析，参考如下: </a>
+        <br>
+        <table>
+            <tr>
+                <th class="typecol">类别</th>
+                <th>描述及建议</th>
+            </tr>
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            <tr>
+                <td>bound算子集合</td>
+                <td>
+                <table>
+                <tr><th>name</th><th>shape</th><th>dtype</th><th> bound类型为</th></tr>
+                    <tr><tr><td>aclnnFlashAttentionScoreGrad_FlashAttentionScoreGrad_FlashAttentionScoreGrad</td><td>1,7,16384,128;1,7,16384,128;1,7,16384,128;1,7,16384,128;16384,16384;1,7,16384,8;1,7,16384,8;;1,7,16384,128;</td><td>DT_BF16;DT_BF16;DT_BF16;DT_BF16;BOOL;FLOAT;FLOAT;DT_BF16;DT_BF16;INT64</td><td>fixpipe</td></tr><tr><td>aclnnFlashAttentionScore_FlashAttentionScore_FlashAttentionScore</td><td>1,7,16384,128;1,7,16384,128;1,7,16384,128;;;;16384,16384;;;;;</td><td>None</td><td>vec</td></tr></tr>
+                </table>
+                </td>
+            </tr>
+            
+            
+            
+            
+        </table>
+        
+
+        
+        <a style="font-weight: bold" id="vector_analyze">Vector算子相关分析，参考如下: </a>
+        <br>
+        <table>
+            <tr>
+                <th class="typecol">类别</th>
+                <th>描述及建议</th>
+            </tr>
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            <tr>
+                <td>性能优化算子集合</td>
+                <td>
+                <table>
+                <tr><th>name</th><th>shape</th><th>dtype</th><th> 参考性能优化空间</th></tr>
+                    <tr><tr><td>aclnnInplaceCopy_TensorMoveAiCore_TensorMove</td><td>3584,4736</td><td>DT_BF16</td><td>70.0%</td></tr><tr><td>aclnnInplaceCopy_TensorMoveAiCore_TensorMove</td><td>896,3584</td><td>DT_BF16</td><td>69.9%</td></tr><tr><td>aclnnInplaceCopy_TensorMoveAiCore_TensorMove</td><td>3584,896</td><td>DT_BF16</td><td>69.88%</td></tr><tr><td>aclnnInplaceCopy_TensorMoveAiCore_TensorMove</td><td>1,1,1,16384,128</td><td>DT_BF16</td><td>69.82%</td></tr><tr><td>aclnnInplaceCopy_TensorMoveAiCore_TensorMove</td><td>1,1,16384,128</td><td>DT_BF16</td><td>69.8%</td></tr></tr>
+                </table>
+                </td>
+            </tr>
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            <tr>
+                <td>bound算子集合</td>
+                <td>
+                <table>
+                <tr><th>name</th><th>shape</th><th>dtype</th><th> bound类型为</th></tr>
+                    <tr><tr><td>aclnnInplaceCopy_TensorMoveAiCore_TensorMove</td><td>1,4096,3584</td><td>DT_BF16</td><td>vec_mte2_mte3</td></tr><tr><td>aclnnMul_MulAiCore_Mul</td><td>1,16384,4736;1,16384,4736</td><td>DT_BF16;DT_BF16</td><td>vec_mte2_mte3</td></tr><tr><td>aclnnMul_MulAiCore_Mul</td><td>1,4096,3584;1,4096,3584</td><td>FLOAT;FLOAT</td><td>vec_mte2_mte3</td></tr><tr><td>aclnnInplaceMul_CastAiCore_Cast</td><td>16383,38016</td><td>FLOAT</td><td>vec_mte2_mte3</td></tr><tr><td>aclnnInplaceMuls_MulAiCore_Mul</td><td>8486912;</td><td>FLOAT;FLOAT</td><td>vec_mte2_mte3</td></tr></tr>
+                </table>
+                </td>
+            </tr>
+            
+        </table>
+        
+    </div>
+</div>
+
+                
+          </div>
+      </div>
+      
+      <div class="collapsible">
+          <h2 class="collapsible-header">stage-3</h2>
+          <div class="collapsible-content">
+                <a style="font-weight: bold" id="timeline_api_instruction">Description: analysis for slow rank 7 in current stage</a>
+                <br><br>
+                
+                    <div class="collapsible">
+    <h2 class="collapsible-header" style="background-color: #65c294;">Operator Dynamic Shape Issues</h2>
+    <div class="collapsible-content">
+        
+        <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 7. </a>
+        
+        <table>
+            <tr>
+                <th>Description</th>
+                <th>Suggestion</th>
+            </tr>
+            <tr>
+                <td>找到所有是动态shape的算子</td>
+                <td>在python脚本入口加入以下代码关闭在线编译：<br>'torch_npu.npu.set_compile_mode(jit_compile=False) <br> torch_npu.npu.config.allow_internal_format = False' <br>详细信息请参考：<a href=https://www.hiascend.com/document/detail/zh/canncommercial/700/modeldevpt/ptmigr/AImpug_000060.html target='_blank'>链接</a></td>
+            </tr>
+        </table>
+    </div>
+</div>
+                
+                    <div class="collapsible">
+    <h2 class="collapsible-header" style="background-color: #65c294;">AICPU Issues</h2>
+    <div class="collapsible-content">
+        
+        <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 7. </a>
+        
+        <table>
+            <tr>
+                <th>Description</th>
+                <th>Suggestion</th>
+                <th>Elapsed Time(us)</th>
+                <th>Time Ratio</th>
+            </tr>
+            <tr>
+                <td>一些算子和任务执行时间超过了20us，比如：
+IndexPut</td>
+                <td>修改代码避免使用aicpu类算子</td>
+                <td>12304.89</td>
+                <td>0.0002</td>
+            </tr>
+        </table>
+        <div class="collapsible">
+            
+            <div class="collapsible-header">IndexPut</div>
+            <div class="collapsible-content">
+                <table>
+                    <tr>
+                        <th>Operator Type</th>
+                        <th>Counts</th>
+                        <th>Elapsed Time(us)</th>
+                    </tr>
+                    <tr>
+                        <td>IndexPut</td>
+                        <td>2</td>
+                        <td>12304.89</td>
+                    </tr>
+                </table>
+                <div class="collapsible">
+                    
+                    <div class="collapsible-header">
+                        <b>IndexPut</b> | Input DType:(INT64;INT64;INT64;INT64) | Output DType:(INT64) | Counts:2 | Elapsed Time(us):12304.89
+                    </div>
+                    <div class="collapsible-content">
+                        
+                        <div>
+                            
+                            <p>
+                                <b>Suggestion 1:</b> <u>请参考<a href='https://gitee.com/ascend/mstt/blob/master/profiler/msprof_analyze/advisor/doc/Samples%20of%20AI%20CPU%20Operator%20Replacement.md' target='_blank'>链接</a>修改源码，尝试用等价的算子替换indexput算子。</u>
+                            </p>
+                            
+                        </div>
+                        
+                        <div class="separator"></div>
+                        <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(84): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(249): cross_entropy_1d;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(334): dist_cross_entropy;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(360): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): <module></a>
+                    </div>
+                    
+                </div>
+            </div>
+            
+        </div>
+    </div>
+</div>
+                
+                    
+<style>
+    .typecol {
+        width: 30%;
+    }
+</style>
+<div class="collapsible">
+    <h2 class="collapsible-header" style="background-color: #65c294;">AI Core Performance Analysis</h2>
+    <div class="collapsible-content">
+        
+        
+        
+        
+        <a style="font-weight: bold" id="cube_analyze">Cube算子相关分析，参考如下: </a>
+        <br>
+        <table>
+            <tr>
+                <th class="typecol">类别</th>
+                <th>描述及建议</th>
+            </tr>
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            <tr>
+                <td>性能优化算子集合</td>
+                <td>
+                <table>
+                <tr><th>name</th><th>shape</th><th>dtype</th><th> 参考性能优化空间</th></tr>
+                    <tr><tr><td>aclnnAddmm_MatMulCommon_MatMulV2</td><td>16384,3584;896,3584;896</td><td>DT_BF16;DT_BF16;FLOAT</td><td>9.68%</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;4736,3584</td><td>DT_BF16;DT_BF16</td><td>9.51%</td></tr><tr><td>aclnnAddmm_MatMulCommon_MatMulV2</td><td>16384,3584;128,3584;128</td><td>DT_BF16;DT_BF16;FLOAT</td><td>4.76%</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;38016,3584</td><td>DT_BF16;DT_BF16</td><td>1.85%</td></tr></tr>
+                </table>
+                </td>
+            </tr>
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            <tr>
+                <td>不亲和算子集合</td>
+                <td>
+                <table>
+                <tr><th>name</th><th>shape</th><th>dtype</th><th> 不亲和类型为</th></tr>
+                    <tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;16384,3584</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;4736,3584</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;16384,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;3584,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;3584,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr></tr>
+                </table>
+                </td>
+            </tr>
+            
+        </table>
+        
+
+        
+        <a style="font-weight: bold" id="fa_analyze">FA算子相关分析，参考如下: </a>
+        <br>
+        <table>
+            <tr>
+                <th class="typecol">类别</th>
+                <th>描述及建议</th>
+            </tr>
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            <tr>
+                <td>bound算子集合</td>
+                <td>
+                <table>
+                <tr><th>name</th><th>shape</th><th>dtype</th><th> bound类型为</th></tr>
+                    <tr><tr><td>aclnnFlashAttentionScoreGrad_FlashAttentionScoreGrad_FlashAttentionScoreGrad</td><td>1,7,16384,128;1,7,16384,128;1,7,16384,128;1,7,16384,128;16384,16384;1,7,16384,8;1,7,16384,8;;1,7,16384,128;</td><td>DT_BF16;DT_BF16;DT_BF16;DT_BF16;BOOL;FLOAT;FLOAT;DT_BF16;DT_BF16;INT64</td><td>fixpipe</td></tr><tr><td>aclnnFlashAttentionScore_FlashAttentionScore_FlashAttentionScore</td><td>1,7,16384,128;1,7,16384,128;1,7,16384,128;;;;16384,16384;;;;;</td><td>None</td><td>vec</td></tr></tr>
+                </table>
+                </td>
+            </tr>
+            
+            
+            
+            
+        </table>
+        
+
+        
+    </div>
+</div>
+
+                
+          </div>
+      </div>
+      
+      <div class="collapsible">
+          <h2 class="collapsible-header">stage-4</h2>
+          <div class="collapsible-content">
+                <a style="font-weight: bold" id="timeline_api_instruction">Description: analysis for slow rank 12 in current stage</a>
+                <br><br>
+                
+                    <div class="collapsible">
+    <h2 class="collapsible-header" style="background-color: #65c294;">Operator Dynamic Shape Issues</h2>
+    <div class="collapsible-content">
+        
+        <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 12. </a>
+        
+        <table>
+            <tr>
+                <th>Description</th>
+                <th>Suggestion</th>
+            </tr>
+            <tr>
+                <td>找到所有是动态shape的算子</td>
+                <td>在python脚本入口加入以下代码关闭在线编译：<br>'torch_npu.npu.set_compile_mode(jit_compile=False) <br> torch_npu.npu.config.allow_internal_format = False' <br>详细信息请参考：<a href=https://www.hiascend.com/document/detail/zh/canncommercial/700/modeldevpt/ptmigr/AImpug_000060.html target='_blank'>链接</a></td>
+            </tr>
+        </table>
+    </div>
+</div>
+                
+                    <div class="collapsible">
+    <h2 class="collapsible-header" style="background-color: #65c294;">AICPU Issues</h2>
+    <div class="collapsible-content">
+        
+        <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 12. </a>
+        
+        <table>
+            <tr>
+                <th>Description</th>
+                <th>Suggestion</th>
+                <th>Elapsed Time(us)</th>
+                <th>Time Ratio</th>
+            </tr>
+            <tr>
+                <td>一些算子和任务执行时间超过了20us，比如：
+IndexPut</td>
+                <td>修改代码避免使用aicpu类算子</td>
+                <td>12328.43</td>
+                <td>0.0002</td>
+            </tr>
+        </table>
+        <div class="collapsible">
+            
+            <div class="collapsible-header">IndexPut</div>
+            <div class="collapsible-content">
+                <table>
+                    <tr>
+                        <th>Operator Type</th>
+                        <th>Counts</th>
+                        <th>Elapsed Time(us)</th>
+                    </tr>
+                    <tr>
+                        <td>IndexPut</td>
+                        <td>2</td>
+                        <td>12328.43</td>
+                    </tr>
+                </table>
+                <div class="collapsible">
+                    
+                    <div class="collapsible-header">
+                        <b>IndexPut</b> | Input DType:(INT64;INT64;INT64;INT64) | Output DType:(INT64) | Counts:2 | Elapsed Time(us):12328.43
+                    </div>
+                    <div class="collapsible-content">
+                        
+                        <div>
+                            
+                            <p>
+                                <b>Suggestion 1:</b> <u>请参考<a href='https://gitee.com/ascend/mstt/blob/master/profiler/msprof_analyze/advisor/doc/Samples%20of%20AI%20CPU%20Operator%20Replacement.md' target='_blank'>链接</a>修改源码，尝试用等价的算子替换indexput算子。</u>
+                            </p>
+                            
+                        </div>
+                        
+                        <div class="separator"></div>
+                        <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(84): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(249): cross_entropy_1d;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(334): dist_cross_entropy;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(360): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): <module></a>
+                    </div>
+                    
+                </div>
+            </div>
+            
+        </div>
+    </div>
+</div>
+                
+                    
+<style>
+    .typecol {
+        width: 30%;
+    }
+</style>
+<div class="collapsible">
+    <h2 class="collapsible-header" style="background-color: #65c294;">AI Core Performance Analysis</h2>
+    <div class="collapsible-content">
+        
+        
+        
+        
+        <a style="font-weight: bold" id="cube_analyze">Cube算子相关分析，参考如下: </a>
+        <br>
+        <table>
+            <tr>
+                <th class="typecol">类别</th>
+                <th>描述及建议</th>
+            </tr>
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            <tr>
+                <td>性能优化算子集合</td>
+                <td>
+                <table>
+                <tr><th>name</th><th>shape</th><th>dtype</th><th> 参考性能优化空间</th></tr>
+                    <tr><tr><td>aclnnAddmm_MatMulCommon_MatMulV2</td><td>16384,3584;896,3584;896</td><td>DT_BF16;DT_BF16;FLOAT</td><td>9.58%</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;4736,3584</td><td>DT_BF16;DT_BF16</td><td>9.44%</td></tr><tr><td>aclnnAddmm_MatMulCommon_MatMulV2</td><td>16384,3584;128,3584;128</td><td>DT_BF16;DT_BF16;FLOAT</td><td>4.6%</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;38016,3584</td><td>DT_BF16;DT_BF16</td><td>2.05%</td></tr></tr>
+                </table>
+                </td>
+            </tr>
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            <tr>
+                <td>不亲和算子集合</td>
+                <td>
+                <table>
+                <tr><th>name</th><th>shape</th><th>dtype</th><th> 不亲和类型为</th></tr>
+                    <tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;16384,3584</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;4736,3584</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;16384,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;3584,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;3584,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr></tr>
+                </table>
+                </td>
+            </tr>
+            
+        </table>
+        
+
+        
+        <a style="font-weight: bold" id="fa_analyze">FA算子相关分析，参考如下: </a>
+        <br>
+        <table>
+            <tr>
+                <th class="typecol">类别</th>
+                <th>描述及建议</th>
+            </tr>
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            <tr>
+                <td>bound算子集合</td>
+                <td>
+                <table>
+                <tr><th>name</th><th>shape</th><th>dtype</th><th> bound类型为</th></tr>
+                    <tr><tr><td>aclnnFlashAttentionScoreGrad_FlashAttentionScoreGrad_FlashAttentionScoreGrad</td><td>1,7,16384,128;1,7,16384,128;1,7,16384,128;1,7,16384,128;16384,16384;1,7,16384,8;1,7,16384,8;;1,7,16384,128;</td><td>DT_BF16;DT_BF16;DT_BF16;DT_BF16;BOOL;FLOAT;FLOAT;DT_BF16;DT_BF16;INT64</td><td>fixpipe</td></tr><tr><td>aclnnFlashAttentionScore_FlashAttentionScore_FlashAttentionScore</td><td>1,7,16384,128;1,7,16384,128;1,7,16384,128;;;;16384,16384;;;;;</td><td>None</td><td>vec</td></tr></tr>
+                </table>
+                </td>
+            </tr>
+            
+            
+            
+            
+        </table>
+        
+
+        
+    </div>
+</div>
+
+                
+          </div>
+      </div>
+      
+      <div class="collapsible">
+          <h2 class="collapsible-header">stage-5</h2>
+          <div class="collapsible-content">
+                <a style="font-weight: bold" id="timeline_api_instruction">Description: analysis for slow rank 13 in current stage</a>
+                <br><br>
+                
+                    <div class="collapsible">
+    <h2 class="collapsible-header" style="background-color: #65c294;">Operator Dynamic Shape Issues</h2>
+    <div class="collapsible-content">
+        
+        <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 13. </a>
+        
+        <table>
+            <tr>
+                <th>Description</th>
+                <th>Suggestion</th>
+            </tr>
+            <tr>
+                <td>找到所有是动态shape的算子</td>
+                <td>在python脚本入口加入以下代码关闭在线编译：<br>'torch_npu.npu.set_compile_mode(jit_compile=False) <br> torch_npu.npu.config.allow_internal_format = False' <br>详细信息请参考：<a href=https://www.hiascend.com/document/detail/zh/canncommercial/700/modeldevpt/ptmigr/AImpug_000060.html target='_blank'>链接</a></td>
+            </tr>
+        </table>
+    </div>
+</div>
+                
+                    <div class="collapsible">
+    <h2 class="collapsible-header" style="background-color: #65c294;">AICPU Issues</h2>
+    <div class="collapsible-content">
+        
+        <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 13. </a>
+        
+        <table>
+            <tr>
+                <th>Description</th>
+                <th>Suggestion</th>
+                <th>Elapsed Time(us)</th>
+                <th>Time Ratio</th>
+            </tr>
+            <tr>
+                <td>一些算子和任务执行时间超过了20us，比如：
+IndexPut</td>
+                <td>修改代码避免使用aicpu类算子</td>
+                <td>12306.05</td>
+                <td>0.0031</td>
+            </tr>
+        </table>
+        <div class="collapsible">
+            
+            <div class="collapsible-header">IndexPut</div>
+            <div class="collapsible-content">
+                <table>
+                    <tr>
+                        <th>Operator Type</th>
+                        <th>Counts</th>
+                        <th>Elapsed Time(us)</th>
+                    </tr>
+                    <tr>
+                        <td>IndexPut</td>
+                        <td>2</td>
+                        <td>12306.05</td>
+                    </tr>
+                </table>
+                <div class="collapsible">
+                    
+                    <div class="collapsible-header">
+                        <b>IndexPut</b> | Input DType:(INT64;INT64;INT64;INT64) | Output DType:(INT64) | Counts:2 | Elapsed Time(us):12306.05
+                    </div>
+                    <div class="collapsible-content">
+                        
+                        <div>
+                            
+                            <p>
+                                <b>Suggestion 1:</b> <u>请参考<a href='https://gitee.com/ascend/mstt/blob/master/profiler/msprof_analyze/advisor/doc/Samples%20of%20AI%20CPU%20Operator%20Replacement.md' target='_blank'>链接</a>修改源码，尝试用等价的算子替换indexput算子。</u>
+                            </p>
+                            
+                        </div>
+                        
+                        <div class="separator"></div>
+                        <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(84): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(249): cross_entropy_1d;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(334): dist_cross_entropy;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(360): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): <module></a>
+                    </div>
+                    
+                </div>
+            </div>
+            
+        </div>
+    </div>
+</div>
+                
+                    
+<style>
+    .typecol {
+        width: 30%;
+    }
+</style>
+<div class="collapsible">
+    <h2 class="collapsible-header" style="background-color: #65c294;">AI Core Performance Analysis</h2>
+    <div class="collapsible-content">
+        
+        
+        
+        
+        <a style="font-weight: bold" id="cube_analyze">Cube算子相关分析，参考如下: </a>
+        <br>
+        <table>
+            <tr>
+                <th class="typecol">类别</th>
+                <th>描述及建议</th>
+            </tr>
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            <tr>
+                <td>性能优化算子集合</td>
+                <td>
+                <table>
+                <tr><th>name</th><th>shape</th><th>dtype</th><th> 参考性能优化空间</th></tr>
+                    <tr><tr><td>aclnnAddmm_MatMulCommon_MatMulV2</td><td>16384,3584;896,3584;896</td><td>DT_BF16;DT_BF16;FLOAT</td><td>9.61%</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;4736,3584</td><td>DT_BF16;DT_BF16</td><td>9.45%</td></tr><tr><td>aclnnAddmm_MatMulCommon_MatMulV2</td><td>16384,3584;128,3584;128</td><td>DT_BF16;DT_BF16;FLOAT</td><td>4.73%</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;38016,3584</td><td>DT_BF16;DT_BF16</td><td>1.85%</td></tr></tr>
+                </table>
+                </td>
+            </tr>
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            <tr>
+                <td>不亲和算子集合</td>
+                <td>
+                <table>
+                <tr><th>name</th><th>shape</th><th>dtype</th><th> 不亲和类型为</th></tr>
+                    <tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;16384,3584</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;4736,3584</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;16384,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;3584,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;3584,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr></tr>
+                </table>
+                </td>
+            </tr>
+            
+        </table>
+        
+
+        
+        <a style="font-weight: bold" id="fa_analyze">FA算子相关分析，参考如下: </a>
+        <br>
+        <table>
+            <tr>
+                <th class="typecol">类别</th>
+                <th>描述及建议</th>
+            </tr>
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            <tr>
+                <td>bound算子集合</td>
+                <td>
+                <table>
+                <tr><th>name</th><th>shape</th><th>dtype</th><th> bound类型为</th></tr>
+                    <tr><tr><td>aclnnFlashAttentionScoreGrad_FlashAttentionScoreGrad_FlashAttentionScoreGrad</td><td>1,7,16384,128;1,7,16384,128;1,7,16384,128;1,7,16384,128;16384,16384;1,7,16384,8;1,7,16384,8;;1,7,16384,128;</td><td>DT_BF16;DT_BF16;DT_BF16;DT_BF16;BOOL;FLOAT;FLOAT;DT_BF16;DT_BF16;INT64</td><td>fixpipe</td></tr><tr><td>aclnnFlashAttentionScore_FlashAttentionScore_FlashAttentionScore</td><td>1,7,16384,128;1,7,16384,128;1,7,16384,128;;;;16384,16384;;;;;</td><td>None</td><td>vec</td></tr></tr>
+                </table>
+                </td>
+            </tr>
+            
+            
+            
+            
+        </table>
+        
+
+        
+        <a style="font-weight: bold" id="vector_analyze">Vector算子相关分析，参考如下: </a>
+        <br>
+        <table>
+            <tr>
+                <th class="typecol">类别</th>
+                <th>描述及建议</th>
+            </tr>
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            <tr>
+                <td>性能优化算子集合</td>
+                <td>
+                <table>
+                <tr><th>name</th><th>shape</th><th>dtype</th><th> 参考性能优化空间</th></tr>
+                    <tr><tr><td>aclnnInplaceCopy_TensorMoveAiCore_TensorMove</td><td>3584,4736</td><td>DT_BF16</td><td>70.0%</td></tr><tr><td>aclnnInplaceCopy_TensorMoveAiCore_TensorMove</td><td>3584,896</td><td>DT_BF16</td><td>69.89%</td></tr><tr><td>aclnnInplaceCopy_TensorMoveAiCore_TensorMove</td><td>896,3584</td><td>DT_BF16</td><td>69.89%</td></tr><tr><td>aclnnInplaceCopy_TensorMoveAiCore_TensorMove</td><td>1,1,1,16384,128</td><td>DT_BF16</td><td>69.82%</td></tr><tr><td>aclnnInplaceCopy_TensorMoveAiCore_TensorMove</td><td>1,1,16384,128</td><td>DT_BF16</td><td>69.8%</td></tr></tr>
+                </table>
+                </td>
+            </tr>
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            <tr>
+                <td>bound算子集合</td>
+                <td>
+                <table>
+                <tr><th>name</th><th>shape</th><th>dtype</th><th> bound类型为</th></tr>
+                    <tr><tr><td>aclnnInplaceCopy_TensorMoveAiCore_TensorMove</td><td>1,4096,3584</td><td>DT_BF16</td><td>vec_mte2_mte3</td></tr><tr><td>aclnnMul_MulAiCore_Mul</td><td>1,16384,4736;1,16384,4736</td><td>DT_BF16;DT_BF16</td><td>vec_mte2_mte3</td></tr><tr><td>aclnnMul_MulAiCore_Mul</td><td>1,4096,3584;1,4096,3584</td><td>FLOAT;FLOAT</td><td>vec_mte2_mte3</td></tr><tr><td>aclnnInplaceMul_CastAiCore_Cast</td><td>16383,38016</td><td>FLOAT</td><td>vec_mte2_mte3</td></tr><tr><td>aclnnInplaceMuls_MulAiCore_Mul</td><td>8486912;</td><td>FLOAT;FLOAT</td><td>vec_mte2_mte3</td></tr></tr>
+                </table>
+                </td>
+            </tr>
+            
+        </table>
+        
+    </div>
+</div>
+
+                
+          </div>
+      </div>
+      
+      <div class="collapsible">
+          <h2 class="collapsible-header">stage-6</h2>
+          <div class="collapsible-content">
+                <a style="font-weight: bold" id="timeline_api_instruction">Description: analysis for slow rank 14 in current stage</a>
+                <br><br>
+                
+                    <div class="collapsible">
+    <h2 class="collapsible-header" style="background-color: #65c294;">Operator Dynamic Shape Issues</h2>
+    <div class="collapsible-content">
+        
+        <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 14. </a>
+        
+        <table>
+            <tr>
+                <th>Description</th>
+                <th>Suggestion</th>
+            </tr>
+            <tr>
+                <td>找到所有是动态shape的算子</td>
+                <td>在python脚本入口加入以下代码关闭在线编译：<br>'torch_npu.npu.set_compile_mode(jit_compile=False) <br> torch_npu.npu.config.allow_internal_format = False' <br>详细信息请参考：<a href=https://www.hiascend.com/document/detail/zh/canncommercial/700/modeldevpt/ptmigr/AImpug_000060.html target='_blank'>链接</a></td>
+            </tr>
+        </table>
+    </div>
+</div>
+                
+                    <div class="collapsible">
+    <h2 class="collapsible-header" style="background-color: #65c294;">AICPU Issues</h2>
+    <div class="collapsible-content">
+        
+        <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 14. </a>
+        
+        <table>
+            <tr>
+                <th>Description</th>
+                <th>Suggestion</th>
+                <th>Elapsed Time(us)</th>
+                <th>Time Ratio</th>
+            </tr>
+            <tr>
+                <td>一些算子和任务执行时间超过了20us，比如：
+IndexPut</td>
+                <td>修改代码避免使用aicpu类算子</td>
+                <td>12324.21</td>
+                <td>0.0003</td>
+            </tr>
+        </table>
+        <div class="collapsible">
+            
+            <div class="collapsible-header">IndexPut</div>
+            <div class="collapsible-content">
+                <table>
+                    <tr>
+                        <th>Operator Type</th>
+                        <th>Counts</th>
+                        <th>Elapsed Time(us)</th>
+                    </tr>
+                    <tr>
+                        <td>IndexPut</td>
+                        <td>2</td>
+                        <td>12324.21</td>
+                    </tr>
+                </table>
+                <div class="collapsible">
+                    
+                    <div class="collapsible-header">
+                        <b>IndexPut</b> | Input DType:(INT64;INT64;INT64;INT64) | Output DType:(INT64) | Counts:2 | Elapsed Time(us):12324.21
+                    </div>
+                    <div class="collapsible-content">
+                        
+                        <div>
+                            
+                            <p>
+                                <b>Suggestion 1:</b> <u>请参考<a href='https://gitee.com/ascend/mstt/blob/master/profiler/msprof_analyze/advisor/doc/Samples%20of%20AI%20CPU%20Operator%20Replacement.md' target='_blank'>链接</a>修改源码，尝试用等价的算子替换indexput算子。</u>
+                            </p>
+                            
+                        </div>
+                        
+                        <div class="separator"></div>
+                        <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(84): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(249): cross_entropy_1d;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(334): dist_cross_entropy;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(360): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): <module></a>
+                    </div>
+                    
+                </div>
+            </div>
+            
+        </div>
+    </div>
+</div>
+                
+                    
+<style>
+    .typecol {
+        width: 30%;
+    }
+</style>
+<div class="collapsible">
+    <h2 class="collapsible-header" style="background-color: #65c294;">AI Core Performance Analysis</h2>
+    <div class="collapsible-content">
+        
+        
+        
+        
+        <a style="font-weight: bold" id="cube_analyze">Cube算子相关分析，参考如下: </a>
+        <br>
+        <table>
+            <tr>
+                <th class="typecol">类别</th>
+                <th>描述及建议</th>
+            </tr>
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            <tr>
+                <td>性能优化算子集合</td>
+                <td>
+                <table>
+                <tr><th>name</th><th>shape</th><th>dtype</th><th> 参考性能优化空间</th></tr>
+                    <tr><tr><td>aclnnAddmm_MatMulCommon_MatMulV2</td><td>16384,3584;896,3584;896</td><td>DT_BF16;DT_BF16;FLOAT</td><td>9.64%</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;4736,3584</td><td>DT_BF16;DT_BF16</td><td>9.49%</td></tr><tr><td>aclnnAddmm_MatMulCommon_MatMulV2</td><td>16384,3584;128,3584;128</td><td>DT_BF16;DT_BF16;FLOAT</td><td>4.86%</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;38016,3584</td><td>DT_BF16;DT_BF16</td><td>1.8%</td></tr></tr>
+                </table>
+                </td>
+            </tr>
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            <tr>
+                <td>不亲和算子集合</td>
+                <td>
+                <table>
+                <tr><th>name</th><th>shape</th><th>dtype</th><th> 不亲和类型为</th></tr>
+                    <tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;16384,3584</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;4736,3584</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;16384,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;3584,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;3584,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr></tr>
+                </table>
+                </td>
+            </tr>
+            
+        </table>
+        
+
+        
+        <a style="font-weight: bold" id="fa_analyze">FA算子相关分析，参考如下: </a>
+        <br>
+        <table>
+            <tr>
+                <th class="typecol">类别</th>
+                <th>描述及建议</th>
+            </tr>
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            <tr>
+                <td>bound算子集合</td>
+                <td>
+                <table>
+                <tr><th>name</th><th>shape</th><th>dtype</th><th> bound类型为</th></tr>
+                    <tr><tr><td>aclnnFlashAttentionScoreGrad_FlashAttentionScoreGrad_FlashAttentionScoreGrad</td><td>1,7,16384,128;1,7,16384,128;1,7,16384,128;1,7,16384,128;16384,16384;1,7,16384,8;1,7,16384,8;;1,7,16384,128;</td><td>DT_BF16;DT_BF16;DT_BF16;DT_BF16;BOOL;FLOAT;FLOAT;DT_BF16;DT_BF16;INT64</td><td>fixpipe</td></tr><tr><td>aclnnFlashAttentionScore_FlashAttentionScore_FlashAttentionScore</td><td>1,7,16384,128;1,7,16384,128;1,7,16384,128;;;;16384,16384;;;;;</td><td>None</td><td>vec</td></tr></tr>
+                </table>
+                </td>
+            </tr>
+            
+            
+            
+            
+        </table>
+        
+
+        
+    </div>
+</div>
+
+                
+          </div>
+      </div>
+      
+      <div class="collapsible">
+          <h2 class="collapsible-header">stage-7</h2>
+          <div class="collapsible-content">
+                <a style="font-weight: bold" id="timeline_api_instruction">Description: analysis for slow rank 15 in current stage</a>
+                <br><br>
+                
+                    <div class="collapsible">
+    <h2 class="collapsible-header" style="background-color: #65c294;">Operator Dynamic Shape Issues</h2>
+    <div class="collapsible-content">
+        
+        <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 15. </a>
+        
+        <table>
+            <tr>
+                <th>Description</th>
+                <th>Suggestion</th>
+            </tr>
+            <tr>
+                <td>找到所有是动态shape的算子</td>
+                <td>在python脚本入口加入以下代码关闭在线编译：<br>'torch_npu.npu.set_compile_mode(jit_compile=False) <br> torch_npu.npu.config.allow_internal_format = False' <br>详细信息请参考：<a href=https://www.hiascend.com/document/detail/zh/canncommercial/700/modeldevpt/ptmigr/AImpug_000060.html target='_blank'>链接</a></td>
+            </tr>
+        </table>
+    </div>
+</div>
+                
+                    <div class="collapsible">
+    <h2 class="collapsible-header" style="background-color: #65c294;">AICPU Issues</h2>
+    <div class="collapsible-content">
+        
+        <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 15. </a>
+        
+        <table>
+            <tr>
+                <th>Description</th>
+                <th>Suggestion</th>
+                <th>Elapsed Time(us)</th>
+                <th>Time Ratio</th>
+            </tr>
+            <tr>
+                <td>一些算子和任务执行时间超过了20us，比如：
+IndexPut</td>
+                <td>修改代码避免使用aicpu类算子</td>
+                <td>12297.57</td>
+                <td>0.0002</td>
+            </tr>
+        </table>
+        <div class="collapsible">
+            
+            <div class="collapsible-header">IndexPut</div>
+            <div class="collapsible-content">
+                <table>
+                    <tr>
+                        <th>Operator Type</th>
+                        <th>Counts</th>
+                        <th>Elapsed Time(us)</th>
+                    </tr>
+                    <tr>
+                        <td>IndexPut</td>
+                        <td>2</td>
+                        <td>12297.57</td>
+                    </tr>
+                </table>
+                <div class="collapsible">
+                    
+                    <div class="collapsible-header">
+                        <b>IndexPut</b> | Input DType:(INT64;INT64;INT64;INT64) | Output DType:(INT64) | Counts:1 | Elapsed Time(us):11999.58
+                    </div>
+                    <div class="collapsible-content">
+                        
+                        <div>
+                            
+                            <p>
+                                <b>Suggestion 1:</b> <u>请参考<a href='https://gitee.com/ascend/mstt/blob/master/profiler/msprof_analyze/advisor/doc/Samples%20of%20AI%20CPU%20Operator%20Replacement.md' target='_blank'>链接</a>修改源码，尝试用等价的算子替换indexput算子。</u>
+                            </p>
+                            
+                        </div>
+                        
+                        <div class="separator"></div>
+                        <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(85): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(249): cross_entropy_1d;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(334): dist_cross_entropy;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(360): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): <module></a>
+                    </div>
+                    
+                    <div class="collapsible-header">
+                        <b>IndexPut</b> | Input DType:(INT64;INT64;INT64;INT64) | Output DType:(INT64) | Counts:1 | Elapsed Time(us):297.99
+                    </div>
+                    <div class="collapsible-content">
+                        
+                        <div>
+                            
+                            <p>
+                                <b>Suggestion 1:</b> <u>请参考<a href='https://gitee.com/ascend/mstt/blob/master/profiler/msprof_analyze/advisor/doc/Samples%20of%20AI%20CPU%20Operator%20Replacement.md' target='_blank'>链接</a>修改源码，尝试用等价的算子替换indexput算子。</u>
+                            </p>
+                            
+                        </div>
+                        
+                        <div class="separator"></div>
+                        <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(89): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(249): cross_entropy_1d;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(334): dist_cross_entropy;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(360): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): <module></a>
+                    </div>
+                    
+                </div>
+            </div>
+            
+        </div>
+    </div>
+</div>
+                
+                    
+<style>
+    .typecol {
+        width: 30%;
+    }
+</style>
+<div class="collapsible">
+    <h2 class="collapsible-header" style="background-color: #65c294;">AI Core Performance Analysis</h2>
+    <div class="collapsible-content">
+        
+        
+        
+        
+        <a style="font-weight: bold" id="cube_analyze">Cube算子相关分析，参考如下: </a>
+        <br>
+        <table>
+            <tr>
+                <th class="typecol">类别</th>
+                <th>描述及建议</th>
+            </tr>
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            <tr>
+                <td>性能优化算子集合</td>
+                <td>
+                <table>
+                <tr><th>name</th><th>shape</th><th>dtype</th><th> 参考性能优化空间</th></tr>
+                    <tr><tr><td>aclnnAddmm_MatMulCommon_MatMulV2</td><td>16384,3584;896,3584;896</td><td>DT_BF16;DT_BF16;FLOAT</td><td>9.55%</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;4736,3584</td><td>DT_BF16;DT_BF16</td><td>9.5%</td></tr><tr><td>aclnnAddmm_MatMulCommon_MatMulV2</td><td>16384,3584;128,3584;128</td><td>DT_BF16;DT_BF16;FLOAT</td><td>4.62%</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;38016,3584</td><td>DT_BF16;DT_BF16</td><td>1.75%</td></tr></tr>
+                </table>
+                </td>
+            </tr>
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            <tr>
+                <td>不亲和算子集合</td>
+                <td>
+                <table>
+                <tr><th>name</th><th>shape</th><th>dtype</th><th> 不亲和类型为</th></tr>
+                    <tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;16384,3584</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;4736,3584</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;16384,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;3584,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;3584,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr></tr>
+                </table>
+                </td>
+            </tr>
+            
+        </table>
+        
+
+        
+        <a style="font-weight: bold" id="fa_analyze">FA算子相关分析，参考如下: </a>
+        <br>
+        <table>
+            <tr>
+                <th class="typecol">类别</th>
+                <th>描述及建议</th>
+            </tr>
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            
+            <tr>
+                <td>bound算子集合</td>
+                <td>
+                <table>
+                <tr><th>name</th><th>shape</th><th>dtype</th><th> bound类型为</th></tr>
+                    <tr><tr><td>aclnnFlashAttentionScoreGrad_FlashAttentionScoreGrad_FlashAttentionScoreGrad</td><td>1,7,16384,128;1,7,16384,128;1,7,16384,128;1,7,16384,128;16384,16384;1,7,16384,8;1,7,16384,8;;1,7,16384,128;</td><td>DT_BF16;DT_BF16;DT_BF16;DT_BF16;BOOL;FLOAT;FLOAT;DT_BF16;DT_BF16;INT64</td><td>fixpipe</td></tr><tr><td>aclnnFlashAttentionScore_FlashAttentionScore_FlashAttentionScore</td><td>1,7,16384,128;1,7,16384,128;1,7,16384,128;;;;16384,16384;;;;;</td><td>None</td><td>vec</td></tr></tr>
+                </table>
+                </td>
+            </tr>
+            
+            
+            
+            
+        </table>
+        
+
+        
+    </div>
+</div>
+
+                
+          </div>
+      </div>
+      
+    </div>
+</div>
+
+            
+          </div>
+        </div>
+      
+        <div class="collapsible">
+          <h2 class="collapsible-header">schedule</h2>
+          <div class="collapsible-content">
+            
+            
+<div class="collapsible">
+    <h2 class="collapsible-header" style="background-color: #fcaf17;">Conjectured GC Analysis</h2>
+    <div class="collapsible-content">
+      
+      <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 6. </a>
+      
+        <a style="font-weight: bold" id="gc_description">在34079031.859us的空闲时间内几乎没有主机任务，这可能是由Python的异常GC引起的</a>
+        <table>
+        <tr>
+            <th>Suggestions</th>
+        </tr>
+        
+            
+            
+                <tr>
+                    <td>1. 实现高效的Python内存管理；不使用时及时释放内存，避免长期占用；避免对象之间的循环引用。</td>
+                </tr>
+            
+        
+            
+            
+                <tr>
+                    <td>2. 使用 gc.set_threshold() 来调整垃圾回收阈值可以延迟垃圾收集，但这是一个临时解决方案。</td>
+                </tr>
+            
+        
+            
+            
+                <tr>
+                    <td>3. 使用 gc.disable() 来关闭GC，注意这是个临时解决方案。</td>
+                </tr>
+            
+        
+        </table>
+        
+        <a style="font-weight: bold" id="detail_description">The details of top 2 garbage collection events are as follows:</a>
+        <br><br>
+            <table>
+                <tr>
+                
+                    <th> timestamp </th>
+                
+                    <th> duration(us) </th>
+                
+                </tr>
+
+                
+                <tr>
+                    
+                    <td>1747647483551821.8</td>
+                    
+                    <td>33818722.418</td>
+                    
+                </tr>
+                
+                <tr>
+                    
+                    <td>1747647606194246.2</td>
+                    
+                    <td>260309.441</td>
+                    
+                </tr>
+                
+            </table>
+        
+    </div>
+</div>
+            
+            
+<div class="collapsible">
+  <h2 class="collapsible-header" style="background-color: #65c294;">Affinity API Issues</h2>
+  <div class="collapsible-content">
+      
+      <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 6. </a>
+      
+      <a style="font-weight: bold" id="timeline_api_instruction">The analysis results of following affinity APIs are based on runtime env
+          <span style="font-weight:bold;">cann-8.0.0</span>
+          and
+          <span style="font-weight:bold;">pytorch-pytorch</span>
+      </a>
+      <div class="collapsible">
+
+        
+
+      
+
+        
+
+        <div class="collapsible-header">torch_npu.npu_rms_norm</div>
+        <div class="collapsible-content">
+          <div>
+            <a style="font-weight: bold" id="timeline_api_instruction">Suggestion: </a>
+            <a>Detailed information of affinity apis please refer to</a>
+            <a href="https://gitee.com/ascend/mstt/blob/master/profiler/msprof_analyze/advisor/doc/Samples%20of%20Fused%20Operator%20API%20Replacement.md#torch_npu.npu_rms_norm" target="_blank">API instructions</a>
+          </div>
+          <div class="collapsible">
+          
+              <div class="collapsible-header">No.1 code stack, called 28 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(79): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(620): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.2 code stack, called 28 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(79): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(637): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.3 code stack, called 8 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3341): all_gather;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(223): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(638): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.4 code stack, called 4 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3341): all_gather;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(516): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.5 code stack, called 4 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3341): all_gather;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(518): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.6 code stack, called 3 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3341): all_gather;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(517): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.7 code stack, called 2 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3757): reduce_scatter;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(751): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(223): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(638): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.8 code stack, called 2 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/_ops.py(1116): __call__;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(582): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.9 code stack, called 2 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(80): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(620): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.10 code stack, called 2 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(158): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/_contextlib.py(116): decorate_context;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(540): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.11 code stack, called 2 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3757): reduce_scatter;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(751): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(618): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.12 code stack, called 2 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(79): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(250): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.13 code stack, called 2 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3757): reduce_scatter;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(598): backward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(307): apply</a>
+              </div>
+          
+              <div class="collapsible-header">No.14 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/data/_utils/collate.py(272): collate_tensor_fn;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/data/_utils/collate.py(155): collate;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/data/_utils/collate.py(172): <dictcomp>;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/data/_utils/collate.py(171): collate;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/data/_utils/collate.py(398): default_collate;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/data/_utils/fetch.py(55): fetch;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/data/dataloader.py(757): _next_data;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/data/dataloader.py(701): __next__;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch_npu/profiler/_add_mstx_patch.py(28): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(74): load_batch;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(373): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.15 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(517): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.16 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(207): apply_rotary_pos_emb;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(541): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.17 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(739): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(618): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.18 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(80): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(637): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.19 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(748): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(223): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(638): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.20 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(166): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/_contextlib.py(116): decorate_context;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(540): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.21 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3762): reduce_scatter;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(751): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(618): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.22 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1218): <listcomp>;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1218): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(517): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.23 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(235): repeat_kv;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(573): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.24 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(564): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(517): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.25 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(180): rotate_half;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(207): apply_rotary_pos_emb;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(541): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.26 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(748): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(618): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.27 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(172): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/_contextlib.py(116): decorate_context;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(540): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.28 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(566): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(223): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(638): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.29 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(739): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(223): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(638): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.30 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(236): repeat_kv;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(574): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.31 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(223): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(638): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.32 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(223): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(638): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.33 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(526): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.34 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(179): rotate_half;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(207): apply_rotary_pos_emb;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(541): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.35 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3341): all_gather;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1073): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1359): gather_forward_split_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1390): gather_sp_output;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(253): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.36 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(84): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(249): cross_entropy_1d;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(334): dist_cross_entropy;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(360): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+          </div>
+        </div>
+        
+
+      
+
+        
+
+        <div class="collapsible-header">torch_npu.npu_confusion_transpose</div>
+        <div class="collapsible-content">
+          <div>
+            <a style="font-weight: bold" id="timeline_api_instruction">Suggestion: </a>
+            <a>Detailed information of affinity apis please refer to</a>
+            <a href="https://gitee.com/ascend/mstt/blob/master/profiler/msprof_analyze/advisor/doc/Samples%20of%20Fused%20Operator%20API%20Replacement.md#torch_npu.npu_confusion_transpose" target="_blank">API instructions</a>
+          </div>
+          <div class="collapsible">
+          
+              <div class="collapsible-header">No.1 code stack, called 32 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3757): reduce_scatter;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(598): backward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(307): apply</a>
+              </div>
+          
+              <div class="collapsible-header">No.2 code stack, called 9 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3341): all_gather;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(766): backward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(307): apply</a>
+              </div>
+          
+              <div class="collapsible-header">No.3 code stack, called 7 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(636): backward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(307): apply</a>
+              </div>
+          
+              <div class="collapsible-header">No.4 code stack, called 6 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3341): all_gather;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(223): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(638): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.5 code stack, called 5 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3341): all_gather;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(516): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.6 code stack, called 5 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(595): backward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(307): apply</a>
+              </div>
+          
+              <div class="collapsible-header">No.7 code stack, called 4 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(585): backward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(307): apply</a>
+              </div>
+          
+              <div class="collapsible-header">No.8 code stack, called 4 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(590): backward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(307): apply</a>
+              </div>
+          
+              <div class="collapsible-header">No.9 code stack, called 3 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3341): all_gather;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(518): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.10 code stack, called 3 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3341): all_gather;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(517): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.11 code stack, called 3 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(580): backward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(307): apply</a>
+              </div>
+          
+              <div class="collapsible-header">No.12 code stack, called 3 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(589): backward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(307): apply</a>
+              </div>
+          
+              <div class="collapsible-header">No.13 code stack, called 2 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(235): repeat_kv;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(574): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.14 code stack, called 2 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1218): <listcomp>;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1218): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(518): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.15 code stack, called 2 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(748): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(618): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.16 code stack, called 2 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3757): reduce_scatter;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(751): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(223): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(638): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.17 code stack, called 2 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(80): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(637): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.18 code stack, called 2 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(597): backward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(307): apply</a>
+              </div>
+          
+              <div class="collapsible-header">No.19 code stack, called 2 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(638): backward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(307): apply</a>
+              </div>
+          
+              <div class="collapsible-header">No.20 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(528): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.21 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(157): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/_contextlib.py(116): decorate_context;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(540): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.22 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(79): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(637): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.23 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1218): <listcomp>;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1218): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(516): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.24 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(163): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/_contextlib.py(116): decorate_context;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(540): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.25 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(205): apply_rotary_pos_emb;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(541): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.26 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(206): apply_rotary_pos_emb;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(541): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.27 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(566): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(223): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(638): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.28 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/functional.py(2380): silu;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/activation.py(432): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(223): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(638): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.29 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(179): rotate_half;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(207): apply_rotary_pos_emb;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(541): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.30 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/_ops.py(1116): __call__;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(582): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.31 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(739): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(223): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(638): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.32 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(518): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.33 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3757): reduce_scatter;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(751): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(618): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.34 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(79): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(620): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+          </div>
+        </div>
+        
+
+      
+
+        
+
+        <div class="collapsible-header">torch_npu.npu_rotary_mul</div>
+        <div class="collapsible-content">
+          <div>
+            <a style="font-weight: bold" id="timeline_api_instruction">Suggestion: </a>
+            <a>Detailed information of affinity apis please refer to</a>
+            <a href="https://gitee.com/ascend/mstt/blob/master/profiler/msprof_analyze/advisor/doc/Samples%20of%20Fused%20Operator%20API%20Replacement.md#torch_npu.npu_rotary_mul" target="_blank">API instructions</a>
+          </div>
+          <div class="collapsible">
+          
+              <div class="collapsible-header">No.1 code stack, called 28 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(179): rotate_half;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(206): apply_rotary_pos_emb;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(541): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.2 code stack, called 28 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(179): rotate_half;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(207): apply_rotary_pos_emb;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(541): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.3 code stack, called 10 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3341): all_gather;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(223): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(638): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.4 code stack, called 5 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3341): all_gather;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(516): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.5 code stack, called 4 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3341): all_gather;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(518): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.6 code stack, called 2 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(166): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/_contextlib.py(116): decorate_context;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(540): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.7 code stack, called 2 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(235): repeat_kv;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(573): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.8 code stack, called 2 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3757): reduce_scatter;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(751): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(223): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(638): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.9 code stack, called 2 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(80): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(637): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.10 code stack, called 2 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(157): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/_contextlib.py(116): decorate_context;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(540): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.11 code stack, called 2 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3341): all_gather;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(517): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.12 code stack, called 2 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/_ops.py(1116): __call__;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(582): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.13 code stack, called 2 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3341): all_gather;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(766): backward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(307): apply</a>
+              </div>
+          
+              <div class="collapsible-header">No.14 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1218): <listcomp>;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1218): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(516): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.15 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(163): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/_contextlib.py(116): decorate_context;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(540): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.16 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(564): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(516): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.17 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1218): <listcomp>;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1218): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(517): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.18 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(517): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.19 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(564): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(517): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.20 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(739): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(618): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.21 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(748): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(618): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.22 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(170): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/_contextlib.py(116): decorate_context;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(540): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.23 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(206): apply_rotary_pos_emb;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(541): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.24 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(178): rotate_half;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(207): apply_rotary_pos_emb;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(541): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.25 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(739): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(223): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(638): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.26 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(748): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(223): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(638): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.27 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3757): reduce_scatter;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(751): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(618): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.28 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(618): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.29 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(80): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(250): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.30 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(81): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(250): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
+              </div>
+          
+              <div class="collapsible-header">No.31 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(774): backward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(307): apply</a>
+              </div>
+          
+              <div class="collapsible-header">No.32 code stack, called 1 times</div>
+              <div class="collapsible-content">
+                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(811): backward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(307): apply</a>
+              </div>
+          
+          </div>
+        </div>
+        
+
+      
+
+      </div>
+
+  </div>
+</div>
+
+            
+            
+            
+          </div>
+        </div>
+      
+        <div class="collapsible">
+          <h2 class="collapsible-header">dataloader</h2>
+          <div class="collapsible-content">
+            
+            <div class="collapsible">
+  <h2 class="collapsible-header" style="background-color: #B5495B;">Slow Dataloader Issues</h2>
+  <div class="collapsible-content">
+  
+  <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 6. </a>
+  
+    <a style="font-weight: bold" id="timeline_api_instruction">dataloader加载数据速度较慢，一次迭代花费138000.9us，通常小于10000us。</a>
+    <table>
+        <tr>
+            <th>Suggestions</th>
+        </tr>
+
+        
+            <tr>
+                <td>1. 请检查数据目录的磁盘I/O。如果您正在ModelArts中训练模型，请将数据移动到“/cache”或装载更高效的云磁盘以获得更好的I/O。</td>
+            </tr>
+        
+            <tr>
+                <td>2. 尝试调整dataloader参数'num_workers'。</td>
+            </tr>
+        
+    </table>
+
+  </div>
+</div>
+            
+          </div>
+        </div>
+      
+      </div>
+    </div>
+
+    
+
+<div class="footer">
+    <p>Generated by Ascend Training Tools</p>
+</div>
+    </div>
+
+<script>
+    const collapsibleHeaders = document.getElementsByClassName('collapsible-header');
+
+    for (let i = 0; i < collapsibleHeaders.length; i++) {
+        collapsibleHeaders[i].addEventListener('click', function (event) {
+            const content = this.nextElementSibling;
+
+            // 判断是否展开当前子列表
+            const isExpanded = content.style.display === 'block';
+
+            // 获取同级别的子列表标题元素
+            const siblingHeaders = this.parentNode.parentNode.getElementsByClassName('collapsible-header');
+
+            // 折叠所有同级别的子列表
+            for (let j = 0; j < siblingHeaders.length; j++) {
+                const siblingContent = siblingHeaders[j].nextElementSibling;
+                if (siblingContent !== content) {
+                    siblingContent.style.display = 'none';
+                    siblingHeaders[j].classList.remove('active');
+                    siblingHeaders[j].classList.remove('opened');
+                } else {
+                    siblingHeaders[j].classList.add('opened');
+                }
+            }
+
+            // 切换当前子列表的展开状态
+            this.classList.toggle('active');
+            if (isExpanded) {
+                content.style.display = 'none';
+            } else {
+                content.style.display = 'block';
+            }
+        });
+    }
+</script>
+
+</body>
+</html>
\ No newline at end of file
diff --git a/applications/ColossalChat/profile_log.txt b/applications/ColossalChat/profile_log.txt
new file mode 100644
index 000000000000..20e56e0b2c33
--- /dev/null
+++ b/applications/ColossalChat/profile_log.txt
@@ -0,0 +1,278 @@
+[2025-05-19 17:44:04][INFO] cluster analysis is in the process, please wait...
+[2025-05-19 17:44:04][INFO] Begin generate communication data.
+[2025-05-19 17:44:08][INFO] Communication data read completed.
+Cluster analyzing:   0%|                                                                    | 0/5[2025-05-19 17:44:09][INFO] HostInfoAnalysis completed
+[2025-05-19 17:44:09][INFO] ClusterBaseInfoAnalysis skipped, since data type is not db
+Cluster analyzing:  40%|██████████████████████████▊                                         | 2/5[2025-05-19 17:44:10][INFO] CommMatrixAnalysis completed
+Cluster analyzing:  80%|█████████████████████████████████████████████████████▌              | 4/5[2025-05-19 17:44:12][INFO] CommunicationAnalysis completed
+Cluster analyzing: 100%|███████████████████████████████████████████████████████████████████ | 5/5[2025-05-19 17:44:13][WARNING] StepTraceTimeAnalysis completed
+Cluster analyzing: 100%|███████████████████████████████████████████████████████████████████ | 5/5
+
+
+
+Cluster analyzing: 100%|███████████████████████████████████████████████████████████████████ | 5/5
+[2025-05-19 17:52:51][INFO] The cluster analysis result file has been generated: /home/duanjunwen/ColossalAI/applications/ColossalChat/train_profiling_data
+[2025-05-19 17:52:51][INFO] Cluster has been analyzed because of the existence of cluster analysis output directory.
+[2025-05-19 17:52:51][INFO] Skip Cluster analyze backend.
+[2025-05-19 17:52:52][INFO] Start cluster schedule analysis
+[2025-05-19 17:52:52][INFO] For cluster schedule analysis, maximum free for rank 6 and step 0
+[2025-05-19 17:52:52][INFO] Enable schedule comparison of fast and slow rank/step
+[2025-05-19 17:52:52][INFO] Start cluster computation analysis
+[2025-05-19 17:52:52][INFO] Steps and ranks to be analyzed of different pipeline parallel stages are {"stage-0": {"maximum": {"rank_id": 4, "step": 0}, "minimum": {"rank_id": 0, "step": 0}}, "stage-1": {"maximum": {"rank_id": 5, "step": 0}, "minimum": {"rank_id": 1, "step": 0}}, "stage-2": {"maximum": {"rank_id": 6, "step": 0}, "minimum": {"rank_id": 2, "step": 0}}, "stage-3": {"maximum": {"rank_id": 7, "step": 0}, "minimum": {"rank_id": 3, "step": 0}}, "stage-4": {"maximum": {"rank_id": 12, "step": 0}, "minimum": {"rank_id": 8, "step": 0}}, "stage-5": {"maximum": {"rank_id": 13, "step": 0}, "minimum": {"rank_id": 9, "step": 0}}, "stage-6": {"maximum": {"rank_id": 14, "step": 0}, "minimum": {"rank_id": 10, "step": 0}}, "stage-7": {"maximum": {"rank_id": 15, "step": 0}, "minimum": {"rank_id": 11, "step": 0}}}
+[2025-05-19 17:52:52][INFO] For stage-0, slow rank is 4
+[2025-05-19 17:52:52][INFO] For stage-1, slow rank is 5
+[2025-05-19 17:52:52][INFO] For stage-2, slow rank is 6
+[2025-05-19 17:52:52][INFO] For stage-3, slow rank is 7
+[2025-05-19 17:52:52][INFO] For stage-4, slow rank is 12
+[2025-05-19 17:52:52][INFO] For stage-5, slow rank is 13
+[2025-05-19 17:52:52][INFO] For stage-6, slow rank is 14
+[2025-05-19 17:52:52][INFO] For stage-7, slow rank is 15
+[2025-05-19 17:52:52][INFO] Enable computation comparison of fast and slow rank/step in different pp stages
+[2025-05-19 17:52:52][INFO] Start cluster communication analysis
+[2025-05-19 17:52:52][INFO] Minimum SDMA bandwidth for rank 4 
+[2025-05-19 17:52:52][INFO] Minimum RDMA bandwidth for rank 0 
+[2025-05-19 17:52:52][INFO] Minimum SDMA bandwidth for rank 4 
+[2025-05-19 17:52:52][INFO] Minimum RDMA bandwidth for rank 0 
+[2025-05-19 17:52:52][INFO] Minimum SDMA bandwidth for rank 4 
+[2025-05-19 17:52:52][INFO] Minimum RDMA bandwidth for rank 0 
+[2025-05-19 17:52:52][INFO] Start cluster memory analysis
+[2025-05-19 17:52:52][INFO] For cluster memory analysis, maximum free for rank 6 and step 0
+[2025-05-19 17:52:52][INFO] Start analysis EnvironmentVariableAnalyzer with environment_variable_dataset
+[2025-05-19 17:52:52][WARNING] convert_to_int_with_exception: an empty string was encountered.
+[2025-05-19 17:52:52][WARNING] convert_to_int_with_exception: an empty string was encountered.
+[2025-05-19 17:54:39][INFO] Start analysis MemoryAnalyzer with timeline_event_dataset
+[2025-05-19 17:55:24][INFO] Start analysis ByteAlignmentAnalyzer with ProfilingDataset
+[2025-05-19 17:56:09][INFO] Start analysis BandwidthContentionAnalyzer with communication_dataset
+[2025-05-19 17:56:11][INFO] Start analysis RDMARetransmissionAnalyzer with ClusterCommunicationDataset
+[2025-05-19 17:56:11][INFO] Start analysis PacketAnalyzer with communication_dataset
+[2025-05-19 17:56:11][WARNING] Analyser: ComparisonAnalyzer don't rely on any dataset!
+[2025-05-19 17:56:11][WARNING] Analyser: PPStageComputationAnalyzer don't rely on any dataset!
+[2025-05-19 17:56:57][INFO] Start analysis DynamicShapeAnalyzer with ProfilingDataset
+[2025-05-19 17:57:43][INFO] Start analysis AicpuAnalyzer with ProfilingDataset
+Building dataset for timeline analysis:   0%|                           | 0/2315055 [00:00<?, ?itBuilding dataset for timeline analysis:   0%|             | 4609/2315055 [00:00<00:50, 45984.90itBuilding dataset for timeline analysis:   0%|             | 9226/2315055 [00:00<00:50, 46013.31itBuilding dataset for timeline analysis:   1%|            | 16506/2315055 [00:00<00:39, 57688.66itBuilding dataset for timeline analysis:   1%|▏           | 25302/2315055 [00:00<00:32, 69480.16itBuilding dataset for timeline analysis:   1%|▏           | 32249/2315055 [00:00<00:38, 58903.95itBuilding dataset for timeline analysis:   2%|▏           | 38361/2315055 [00:00<00:38, 58531.05itBuilding dataset for timeline analysis:   2%|▏           | 47215/2315055 [00:00<00:33, 67428.20itBuilding dataset for timeline analysis:   2%|▎           | 54614/2315055 [00:00<00:32, 69305.88itBuilding dataset for timeline analysis:   3%|▎           | 62106/2315055 [00:00<00:31, 70970.24itBuilding dataset for timeline analysis:   3%|▎           | 69682/2315055 [00:01<00:31, 72246.29itBuilding dataset for timeline analysis:   3%|▍           | 77556/2315055 [00:01<00:30, 74112.72itBuilding dataset for timeline analysis:   4%|▍           | 85125/2315055 [00:01<00:29, 74427.82itBuilding dataset for timeline analysis:   4%|▌           | 96464/2315055 [00:01<00:25, 86071.82itBuilding dataset for timeline analysis:   5%|▌          | 109624/2315055 [00:01<00:22, 99607.38itBuilding dataset for timeline analysis:   5%|▌         | 123386/2315055 [00:01<00:19, 110981.42itBuilding dataset for timeline analysis:   6%|▌         | 136753/2315055 [00:01<00:18, 117137.40itBuilding dataset for timeline analysis:   6%|▋         | 150374/2315055 [00:01<00:17, 122448.80itBuilding dataset for timeline analysis:   7%|▋         | 163647/2315055 [00:01<00:17, 125481.58itBuilding dataset for timeline analysis:   8%|▊         | 176208/2315055 [00:01<00:17, 121354.98itBuilding dataset for timeline analysis:   8%|▊         | 188380/2315055 [00:02<00:18, 117643.06itBuilding dataset for timeline analysis:   9%|▊         | 200187/2315055 [00:02<00:18, 116057.22itBuilding dataset for timeline analysis:   9%|▉         | 211822/2315055 [00:02<00:18, 114600.69itBuilding dataset for timeline analysis:  10%|▉         | 223301/2315055 [00:02<00:18, 113465.09itBuilding dataset for timeline analysis:  10%|█         | 234660/2315055 [00:02<00:18, 113258.70itBuilding dataset for timeline analysis:  11%|█         | 245994/2315055 [00:02<00:18, 112259.03itBuilding dataset for timeline analysis:  11%|█         | 257225/2315055 [00:02<00:18, 111826.83itBuilding dataset for timeline analysis:  12%|█▏        | 268411/2315055 [00:02<00:18, 111436.20itBuilding dataset for timeline analysis:  12%|█▏        | 279598/2315055 [00:02<00:18, 110867.86itBuilding dataset for timeline analysis:  13%|█▎        | 290690/2315055 [00:03<00:18, 110748.65itBuilding dataset for timeline analysis:  13%|█▎        | 301777/2315055 [00:03<00:18, 110681.87itBuilding dataset for timeline analysis:  14%|█▎        | 313059/2315055 [00:03<00:18, 110590.36itBuilding dataset for timeline analysis:  14%|█▍        | 324119/2315055 [00:03<00:18, 110276.35itBuilding dataset for timeline analysis:  14%|█▍        | 335147/2315055 [00:03<00:17, 110113.75itBuilding dataset for timeline analysis:  15%|█▍        | 346159/2315055 [00:03<00:18, 106200.71itBuilding dataset for timeline analysis:  15%|█▋         | 356807/2315055 [00:03<00:22, 86453.33itBuilding dataset for timeline analysis:  16%|█▌        | 372383/2315055 [00:03<00:18, 103310.94itBuilding dataset for timeline analysis:  17%|█▋        | 386929/2315055 [00:03<00:16, 114250.70itBuilding dataset for timeline analysis:  17%|█▋        | 401493/2315055 [00:04<00:15, 122684.87itBuilding dataset for timeline analysis:  18%|█▊        | 416241/2315055 [00:04<00:14, 128777.95itBuilding dataset for timeline analysis:  19%|█▊        | 431101/2315055 [00:04<00:14, 133382.86itBuilding dataset for timeline analysis:  19%|█▉        | 446106/2315055 [00:04<00:13, 136985.14itBuilding dataset for timeline analysis:  20%|█▉        | 460017/2315055 [00:04<00:13, 136914.54itBuilding dataset for timeline analysis:  20%|██        | 473857/2315055 [00:04<00:15, 122705.66itBuilding dataset for timeline analysis:  21%|██        | 486491/2315055 [00:04<00:15, 115254.20itBuilding dataset for timeline analysis:  22%|██▏       | 498320/2315055 [00:04<00:16, 112054.90itBuilding dataset for timeline analysis:  22%|██▏       | 509728/2315055 [00:04<00:17, 105332.51itBuilding dataset for timeline analysis:  22%|██▏       | 520435/2315055 [00:05<00:17, 101076.53itBuilding dataset for timeline analysis:  23%|██▌        | 530659/2315055 [00:05<00:18, 97496.58itBuilding dataset for timeline analysis:  24%|██▎       | 544498/2315055 [00:05<00:16, 108390.20itBuilding dataset for timeline analysis:  24%|██▍       | 559292/2315055 [00:05<00:14, 118941.33itBuilding dataset for timeline analysis:  25%|██▍       | 573772/2315055 [00:05<00:13, 125660.32itBuilding dataset for timeline analysis:  25%|██▌       | 588231/2315055 [00:05<00:13, 130560.82itBuilding dataset for timeline analysis:  26%|██▌       | 603115/2315055 [00:05<00:12, 135154.88itBuilding dataset for timeline analysis:  27%|██▋       | 619589/2315055 [00:05<00:11, 143127.79itBuilding dataset for timeline analysis:  27%|██▋       | 636078/2315055 [00:05<00:11, 149002.43itBuilding dataset for timeline analysis:  28%|██▊       | 652564/2315055 [00:05<00:10, 153197.63itBuilding dataset for timeline analysis:  29%|██▉       | 669036/2315055 [00:06<00:10, 156247.77itBuilding dataset for timeline analysis:  30%|██▉       | 685526/2315055 [00:06<00:10, 158500.18itBuilding dataset for timeline analysis:  30%|███       | 701996/2315055 [00:06<00:10, 159948.06itBuilding dataset for timeline analysis:  31%|███       | 718476/2315055 [00:06<00:09, 161114.73itBuilding dataset for timeline analysis:  32%|███▏      | 734963/2315055 [00:06<00:09, 162050.38itBuilding dataset for timeline analysis:  32%|███▏      | 751447/2315055 [00:06<00:09, 162670.34itBuilding dataset for timeline analysis:  33%|███▎      | 767927/2315055 [00:06<00:09, 163106.17itBuilding dataset for timeline analysis:  34%|███▍      | 784409/2315055 [00:06<00:09, 163310.96itBuilding dataset for timeline analysis:  35%|███▍      | 800853/2315055 [00:06<00:09, 163463.15itBuilding dataset for timeline analysis:  35%|███▌      | 817290/2315055 [00:06<00:09, 163489.46itBuilding dataset for timeline analysis:  36%|███▌      | 833758/2315055 [00:07<00:09, 163638.94itBuilding dataset for timeline analysis:  37%|███▋      | 850218/2315055 [00:07<00:08, 163693.18itBuilding dataset for timeline analysis:  37%|███▋      | 866683/2315055 [00:07<00:08, 163744.57itBuilding dataset for timeline analysis:  38%|███▊      | 883156/2315055 [00:07<00:08, 163854.34itBuilding dataset for timeline analysis:  39%|███▉      | 899625/2315055 [00:07<00:08, 163946.14itBuilding dataset for timeline analysis:  40%|███▉      | 916082/2315055 [00:07<00:08, 163971.77itBuilding dataset for timeline analysis:  40%|████      | 932525/2315055 [00:07<00:08, 163408.27itBuilding dataset for timeline analysis:  41%|████      | 948994/2315055 [00:07<00:08, 163559.75itBuilding dataset for timeline analysis:  42%|████▏     | 965439/2315055 [00:07<00:08, 163681.05itBuilding dataset for timeline analysis:  42%|████▏     | 981854/2315055 [00:07<00:08, 163761.51itBuilding dataset for timeline analysis:  43%|████▎     | 998319/2315055 [00:08<00:08, 163815.52itBuilding dataset for timeline analysis:  44%|███▉     | 1014779/2315055 [00:08<00:07, 163788.57itBuilding dataset for timeline analysis:  45%|████     | 1031245/2315055 [00:08<00:07, 163645.63itBuilding dataset for timeline analysis:  45%|████     | 1047706/2315055 [00:08<00:07, 163750.57itBuilding dataset for timeline analysis:  46%|████▏    | 1064174/2315055 [00:08<00:07, 163669.76itBuilding dataset for timeline analysis:  47%|████▏    | 1080646/2315055 [00:08<00:07, 163674.97itBuilding dataset for timeline analysis:  47%|████▎    | 1097101/2315055 [00:08<00:07, 163819.41itBuilding dataset for timeline analysis:  48%|████▎    | 1113572/2315055 [00:08<00:07, 163860.99itBuilding dataset for timeline analysis:  49%|████▍    | 1130035/2315055 [00:08<00:07, 163839.63itBuilding dataset for timeline analysis:  50%|████▍    | 1146481/2315055 [00:08<00:07, 163767.28itBuilding dataset for timeline analysis:  50%|████▌    | 1162946/2315055 [00:09<00:07, 163890.34itBuilding dataset for timeline analysis:  51%|████▌    | 1179358/2315055 [00:09<00:06, 163831.50itBuilding dataset for timeline analysis:  52%|████▋    | 1195845/2315055 [00:09<00:06, 163885.42itBuilding dataset for timeline analysis:  52%|████▋    | 1212307/2315055 [00:09<00:06, 163932.28itBuilding dataset for timeline analysis:  53%|████▊    | 1228701/2315055 [00:09<00:06, 163840.22itBuilding dataset for timeline analysis:  54%|████▊    | 1245086/2315055 [00:09<00:06, 159235.75itBuilding dataset for timeline analysis:  54%|████▉    | 1261037/2315055 [00:09<00:06, 155059.38itBuilding dataset for timeline analysis:  55%|████▉    | 1276579/2315055 [00:09<00:06, 152447.71itBuilding dataset for timeline analysis:  56%|█████    | 1291851/2315055 [00:09<00:06, 151227.05itBuilding dataset for timeline analysis:  56%|█████    | 1306991/2315055 [00:10<00:06, 150086.80itBuilding dataset for timeline analysis:  57%|█████▏   | 1322011/2315055 [00:10<00:06, 148982.28itBuilding dataset for timeline analysis:  58%|█████▏   | 1337072/2315055 [00:10<00:06, 149453.54itBuilding dataset for timeline analysis:  58%|█████▎   | 1352023/2315055 [00:10<00:06, 148344.45itBuilding dataset for timeline analysis:  59%|█████▎   | 1366862/2315055 [00:10<00:06, 147051.38itBuilding dataset for timeline analysis:  60%|█████▎   | 1381885/2315055 [00:10<00:06, 147985.19itBuilding dataset for timeline analysis:  60%|█████▍   | 1396688/2315055 [00:10<00:06, 146874.87itBuilding dataset for timeline analysis:  61%|█████▍   | 1411730/2315055 [00:10<00:06, 146715.21itBuilding dataset for timeline analysis:  62%|█████▌   | 1426862/2315055 [00:10<00:05, 148052.27itBuilding dataset for timeline analysis:  62%|█████▌   | 1441671/2315055 [00:10<00:05, 147023.54itBuilding dataset for timeline analysis:  63%|█████▋   | 1456625/2315055 [00:11<00:05, 146618.06itBuilding dataset for timeline analysis:  64%|█████▋   | 1471757/2315055 [00:11<00:05, 147931.46itBuilding dataset for timeline analysis:  64%|█████▊   | 1486554/2315055 [00:11<00:05, 146881.78itBuilding dataset for timeline analysis:  65%|█████▊   | 1501519/2315055 [00:11<00:05, 147641.82itBuilding dataset for timeline analysis:  65%|█████▉   | 1516287/2315055 [00:11<00:05, 146669.00itBuilding dataset for timeline analysis:  66%|█████▉   | 1531281/2315055 [00:11<00:05, 147624.64itBuilding dataset for timeline analysis:  67%|██████   | 1546047/2315055 [00:11<00:05, 146626.45itBuilding dataset for timeline analysis:  67%|██████   | 1561044/2315055 [00:11<00:05, 146416.70itBuilding dataset for timeline analysis:  68%|██████▏  | 1576176/2315055 [00:11<00:04, 147838.21itBuilding dataset for timeline analysis:  69%|██████▏  | 1590964/2315055 [00:11<00:04, 146708.36itBuilding dataset for timeline analysis:  69%|██████▏  | 1605639/2315055 [00:12<00:04, 145585.69itBuilding dataset for timeline analysis:  70%|██████▎  | 1620567/2315055 [00:12<00:04, 146618.10itBuilding dataset for timeline analysis:  71%|██████▎  | 1635233/2315055 [00:12<00:04, 145549.78itBuilding dataset for timeline analysis:  71%|██████▍  | 1650295/2315055 [00:12<00:04, 147050.57itBuilding dataset for timeline analysis:  72%|██████▍  | 1665005/2315055 [00:12<00:04, 145898.13itBuilding dataset for timeline analysis:  73%|██████▌  | 1680090/2315055 [00:12<00:04, 147348.99itBuilding dataset for timeline analysis:  73%|██████▌  | 1694830/2315055 [00:12<00:04, 146411.57itBuilding dataset for timeline analysis:  74%|██████▋  | 1709853/2315055 [00:12<00:04, 146343.63itBuilding dataset for timeline analysis:  75%|██████▋  | 1724976/2315055 [00:12<00:03, 147788.59itBuilding dataset for timeline analysis:  75%|██████▊  | 1739759/2315055 [00:12<00:03, 146688.28itBuilding dataset for timeline analysis:  76%|██████▊  | 1754747/2315055 [00:13<00:03, 147597.24itBuilding dataset for timeline analysis:  76%|██████▉  | 1769511/2315055 [00:13<00:03, 146629.89itBuilding dataset for timeline analysis:  77%|██████▉  | 1784509/2315055 [00:13<00:03, 147615.43itBuilding dataset for timeline analysis:  78%|██████▉  | 1799274/2315055 [00:13<00:03, 146598.20itBuilding dataset for timeline analysis:  78%|███████  | 1814272/2315055 [00:13<00:03, 146411.84itBuilding dataset for timeline analysis:  79%|███████  | 1829404/2315055 [00:13<00:03, 147844.11itBuilding dataset for timeline analysis:  80%|███████▏ | 1844192/2315055 [00:13<00:03, 146817.93itBuilding dataset for timeline analysis:  80%|███████▏ | 1859167/2315055 [00:13<00:03, 146489.27itBuilding dataset for timeline analysis:  81%|███████▎ | 1874299/2315055 [00:13<00:02, 147849.50itBuilding dataset for timeline analysis:  82%|███████▎ | 1889088/2315055 [00:13<00:02, 146829.62itBuilding dataset for timeline analysis:  82%|███████▍ | 1904062/2315055 [00:14<00:02, 146526.10itBuilding dataset for timeline analysis:  83%|███████▍ | 1919164/2315055 [00:14<00:02, 147853.62itBuilding dataset for timeline analysis:  84%|███████▌ | 1933953/2315055 [00:14<00:02, 146605.90itBuilding dataset for timeline analysis:  84%|███████▌ | 1948957/2315055 [00:14<00:02, 146436.58itBuilding dataset for timeline analysis:  85%|███████▋ | 1964089/2315055 [00:14<00:02, 147798.51itBuilding dataset for timeline analysis:  85%|███████▋ | 1978873/2315055 [00:14<00:02, 146804.42itBuilding dataset for timeline analysis:  86%|███████▊ | 1993852/2315055 [00:14<00:02, 146535.46itBuilding dataset for timeline analysis:  87%|███████▊ | 2008984/2315055 [00:14<00:02, 147915.14itBuilding dataset for timeline analysis:  87%|███████▊ | 2023780/2315055 [00:14<00:01, 146803.99itBuilding dataset for timeline analysis:  88%|███████▉ | 2038747/2315055 [00:14<00:01, 146460.81itBuilding dataset for timeline analysis:  89%|███████▉ | 2053879/2315055 [00:15<00:01, 147872.81itBuilding dataset for timeline analysis:  89%|████████ | 2068671/2315055 [00:15<00:01, 146902.27itBuilding dataset for timeline analysis:  90%|████████ | 2083642/2315055 [00:15<00:01, 146540.76itBuilding dataset for timeline analysis:  91%|████████▏| 2098775/2315055 [00:15<00:01, 147877.45itBuilding dataset for timeline analysis:  91%|████████▏| 2113567/2315055 [00:15<00:01, 146848.29itBuilding dataset for timeline analysis:  92%|████████▎| 2128537/2315055 [00:15<00:01, 146515.43itBuilding dataset for timeline analysis:  93%|████████▎| 2143670/2315055 [00:15<00:01, 147878.66itBuilding dataset for timeline analysis:  93%|████████▍| 2158462/2315055 [00:15<00:01, 146815.26itBuilding dataset for timeline analysis:  94%|████████▍| 2173433/2315055 [00:15<00:00, 146475.56itBuilding dataset for timeline analysis:  95%|████████▌| 2188565/2315055 [00:16<00:00, 147897.49itBuilding dataset for timeline analysis:  95%|████████▌| 2203359/2315055 [00:16<00:00, 146941.21itBuilding dataset for timeline analysis:  96%|████████▌| 2218328/2315055 [00:16<00:00, 146616.47itBuilding dataset for timeline analysis:  96%|████████▋| 2233354/2315055 [00:16<00:00, 147692.35itBuilding dataset for timeline analysis:  97%|████████▋| 2248127/2315055 [00:16<00:00, 146578.37itBuilding dataset for timeline analysis:  98%|████████▊| 2263222/2315055 [00:16<00:00, 147863.78itBuilding dataset for timeline analysis:  98%|████████▊| 2278013/2315055 [00:16<00:00, 146787.76itBuilding dataset for timeline analysis:  99%|████████▉| 2293262/2315055 [00:16<00:00, 147835.34itBuilding dataset for timeline analysis: 100%|████████▉| 2309006/2315055 [00:16<00:00, 150638.25it  
+[2025-05-19 18:05:34][INFO] Start analysis OperatorBoundAnalyzer with ProfilingDataset
+[2025-05-19 18:06:15][INFO] Start analysis BlockDimAnalyzer with ProfilingDataset
+[2025-05-19 18:07:01][INFO] Start analysis FusionOPAnalyzer with GraphDataset
+[2025-05-19 18:07:03][INFO] Start analysis AICoreFreqAnalyzer with timeline_event_dataset
+[2025-05-19 18:08:24][INFO] Start analysis DynamicShapeAnalyzer with ProfilingDataset
+[2025-05-19 18:09:10][INFO] Start analysis AicpuAnalyzer with ProfilingDataset
+Building dataset for timeline analysis:   0%|                           | 0/2279011 [00:00<?, ?itBuilding dataset for timeline analysis:   0%|             | 4590/2279011 [00:00<00:49, 45820.84itBuilding dataset for timeline analysis:   0%|             | 9206/2279011 [00:00<00:49, 45912.26itBuilding dataset for timeline analysis:   1%|            | 14987/2279011 [00:00<00:44, 51033.55itBuilding dataset for timeline analysis:   1%|▏           | 23940/2279011 [00:00<00:34, 66139.89itBuilding dataset for timeline analysis:   1%|▏           | 30559/2279011 [00:00<00:37, 59403.96itBuilding dataset for timeline analysis:   2%|▏           | 36605/2279011 [00:00<00:40, 55672.66itBuilding dataset for timeline analysis:   2%|▏           | 45634/2279011 [00:00<00:33, 65913.40itBuilding dataset for timeline analysis:   2%|▎           | 53268/2279011 [00:00<00:32, 68943.46itBuilding dataset for timeline analysis:   3%|▎           | 60527/2279011 [00:00<00:31, 69963.37itBuilding dataset for timeline analysis:   3%|▎           | 68015/2279011 [00:01<00:30, 71327.25itBuilding dataset for timeline analysis:   3%|▍           | 75822/2279011 [00:01<00:30, 73191.86itBuilding dataset for timeline analysis:   4%|▍           | 83286/2279011 [00:01<00:29, 73591.10itBuilding dataset for timeline analysis:   4%|▍           | 93947/2279011 [00:01<00:26, 83457.44itBuilding dataset for timeline analysis:   5%|▌          | 107361/2279011 [00:01<00:22, 98485.34itBuilding dataset for timeline analysis:   5%|▌         | 121178/2279011 [00:01<00:19, 110355.38itBuilding dataset for timeline analysis:   6%|▌         | 134575/2279011 [00:01<00:18, 116748.95itBuilding dataset for timeline analysis:   7%|▋         | 148194/2279011 [00:01<00:17, 122086.13itBuilding dataset for timeline analysis:   7%|▋         | 161956/2279011 [00:01<00:16, 126155.37itBuilding dataset for timeline analysis:   8%|▊         | 174580/2279011 [00:01<00:17, 122009.89itBuilding dataset for timeline analysis:   8%|▊         | 186814/2279011 [00:02<00:17, 118318.34itBuilding dataset for timeline analysis:   9%|▊         | 198684/2279011 [00:02<00:17, 115775.32itBuilding dataset for timeline analysis:   9%|▉         | 210291/2279011 [00:02<00:18, 114263.58itBuilding dataset for timeline analysis:  10%|▉         | 221736/2279011 [00:02<00:18, 113840.55itBuilding dataset for timeline analysis:  10%|█         | 233132/2279011 [00:02<00:18, 112746.80itBuilding dataset for timeline analysis:  11%|█         | 244414/2279011 [00:02<00:18, 112466.47itBuilding dataset for timeline analysis:  11%|█         | 255665/2279011 [00:02<00:18, 111861.70itBuilding dataset for timeline analysis:  12%|█▏        | 266854/2279011 [00:02<00:18, 111345.45itBuilding dataset for timeline analysis:  12%|█▏        | 277990/2279011 [00:02<00:18, 110726.91itBuilding dataset for timeline analysis:  13%|█▎        | 289064/2279011 [00:03<00:17, 110700.73itBuilding dataset for timeline analysis:  13%|█▎        | 300148/2279011 [00:03<00:17, 110659.05itBuilding dataset for timeline analysis:  14%|█▎        | 311421/2279011 [00:03<00:17, 110566.49itBuilding dataset for timeline analysis:  14%|█▍        | 322653/2279011 [00:03<00:17, 110588.33itBuilding dataset for timeline analysis:  15%|█▍        | 333716/2279011 [00:03<00:17, 110472.42itBuilding dataset for timeline analysis:  15%|█▌        | 344902/2279011 [00:03<00:17, 110546.70itBuilding dataset for timeline analysis:  16%|█▌        | 358080/2279011 [00:03<00:16, 116695.09itBuilding dataset for timeline analysis:  16%|█▋        | 372712/2279011 [00:03<00:15, 125256.79itBuilding dataset for timeline analysis:  17%|█▋        | 387593/2279011 [00:03<00:14, 131457.62itBuilding dataset for timeline analysis:  18%|█▊        | 400736/2279011 [00:03<00:17, 108415.29itBuilding dataset for timeline analysis:  18%|█▉         | 412236/2279011 [00:04<00:18, 99640.64itBuilding dataset for timeline analysis:  19%|██         | 422741/2279011 [00:04<00:18, 99020.18itBuilding dataset for timeline analysis:  19%|██         | 433014/2279011 [00:04<00:18, 98708.58itBuilding dataset for timeline analysis:  19%|█▉        | 443568/2279011 [00:04<00:18, 100541.48itBuilding dataset for timeline analysis:  20%|██        | 456339/2279011 [00:04<00:16, 108042.92itBuilding dataset for timeline analysis:  21%|██        | 470753/2279011 [00:04<00:15, 118252.76itBuilding dataset for timeline analysis:  21%|██        | 482778/2279011 [00:04<00:16, 109044.79itBuilding dataset for timeline analysis:  22%|██▏       | 493947/2279011 [00:04<00:17, 103244.47itBuilding dataset for timeline analysis:  22%|██▍        | 504489/2279011 [00:05<00:17, 99724.29itBuilding dataset for timeline analysis:  23%|██▎       | 519428/2279011 [00:05<00:15, 112657.31itBuilding dataset for timeline analysis:  23%|██▎       | 534468/2279011 [00:05<00:14, 122324.63itBuilding dataset for timeline analysis:  24%|██▍       | 549145/2279011 [00:05<00:13, 129038.78itBuilding dataset for timeline analysis:  25%|██▍       | 563584/2279011 [00:05<00:12, 133091.27itBuilding dataset for timeline analysis:  25%|██▌       | 578011/2279011 [00:05<00:12, 135952.86itBuilding dataset for timeline analysis:  26%|██▌       | 592446/2279011 [00:05<00:12, 138055.49itBuilding dataset for timeline analysis:  27%|██▋       | 608174/2279011 [00:05<00:11, 143710.58itBuilding dataset for timeline analysis:  27%|██▋       | 624423/2279011 [00:05<00:11, 148963.87itBuilding dataset for timeline analysis:  28%|██▊       | 640904/2279011 [00:05<00:10, 153248.43itBuilding dataset for timeline analysis:  29%|██▉       | 657393/2279011 [00:06<00:10, 156439.73itBuilding dataset for timeline analysis:  30%|██▉       | 673878/2279011 [00:06<00:10, 158679.56itBuilding dataset for timeline analysis:  30%|███       | 690355/2279011 [00:06<00:09, 160246.31itBuilding dataset for timeline analysis:  31%|███       | 706840/2279011 [00:06<00:09, 161360.27itBuilding dataset for timeline analysis:  32%|███▏      | 723314/2279011 [00:06<00:09, 162116.94itBuilding dataset for timeline analysis:  32%|███▏      | 739796/2279011 [00:06<00:09, 162674.99itBuilding dataset for timeline analysis:  33%|███▎      | 756285/2279011 [00:06<00:09, 163034.19itBuilding dataset for timeline analysis:  34%|███▍      | 772769/2279011 [00:06<00:09, 163276.65itBuilding dataset for timeline analysis:  35%|███▍      | 789232/2279011 [00:06<00:09, 163421.18itBuilding dataset for timeline analysis:  35%|███▌      | 805689/2279011 [00:06<00:09, 163644.62itBuilding dataset for timeline analysis:  36%|███▌      | 822150/2279011 [00:07<00:08, 163751.90itBuilding dataset for timeline analysis:  37%|███▋      | 838610/2279011 [00:07<00:08, 163760.26itBuilding dataset for timeline analysis:  38%|███▊      | 855085/2279011 [00:07<00:08, 163705.08itBuilding dataset for timeline analysis:  38%|███▊      | 871544/2279011 [00:07<00:08, 163695.84itBuilding dataset for timeline analysis:  39%|███▉      | 887999/2279011 [00:07<00:08, 163783.58itBuilding dataset for timeline analysis:  40%|███▉      | 904473/2279011 [00:07<00:08, 163837.29itBuilding dataset for timeline analysis:  40%|████      | 920941/2279011 [00:07<00:08, 163910.06itBuilding dataset for timeline analysis:  41%|████      | 937380/2279011 [00:07<00:08, 163831.81itBuilding dataset for timeline analysis:  42%|████▏     | 953789/2279011 [00:07<00:08, 163851.82itBuilding dataset for timeline analysis:  43%|████▎     | 970260/2279011 [00:07<00:07, 163888.27itBuilding dataset for timeline analysis:  43%|████▎     | 986717/2279011 [00:08<00:07, 163811.72itBuilding dataset for timeline analysis:  44%|███▉     | 1003190/2279011 [00:08<00:07, 163774.13itBuilding dataset for timeline analysis:  45%|████     | 1019651/2279011 [00:08<00:07, 163789.76itBuilding dataset for timeline analysis:  45%|████     | 1036119/2279011 [00:08<00:07, 163920.89itBuilding dataset for timeline analysis:  46%|████▏    | 1052571/2279011 [00:08<00:07, 163798.07itBuilding dataset for timeline analysis:  47%|████▏    | 1069040/2279011 [00:08<00:07, 163771.30itBuilding dataset for timeline analysis:  48%|████▎    | 1085506/2279011 [00:08<00:07, 163804.22itBuilding dataset for timeline analysis:  48%|████▎    | 1101969/2279011 [00:08<00:07, 163845.83itBuilding dataset for timeline analysis:  49%|████▍    | 1118437/2279011 [00:08<00:07, 163848.02itBuilding dataset for timeline analysis:  50%|████▍    | 1134895/2279011 [00:08<00:06, 163802.56itBuilding dataset for timeline analysis:  51%|████▌    | 1151309/2279011 [00:09<00:06, 163865.88itBuilding dataset for timeline analysis:  51%|████▌    | 1167767/2279011 [00:09<00:06, 163748.08itBuilding dataset for timeline analysis:  52%|████▋    | 1184249/2279011 [00:09<00:06, 163844.38itBuilding dataset for timeline analysis:  53%|████▋    | 1200699/2279011 [00:09<00:06, 163804.93itBuilding dataset for timeline analysis:  53%|████▊    | 1217080/2279011 [00:09<00:06, 163576.06itBuilding dataset for timeline analysis:  54%|████▊    | 1233438/2279011 [00:09<00:06, 157478.40itBuilding dataset for timeline analysis:  55%|████▉    | 1249234/2279011 [00:09<00:06, 154801.72itBuilding dataset for timeline analysis:  55%|████▉    | 1264751/2279011 [00:09<00:06, 152150.30itBuilding dataset for timeline analysis:  56%|█████    | 1279995/2279011 [00:09<00:06, 150955.07itBuilding dataset for timeline analysis:  57%|█████    | 1295109/2279011 [00:09<00:06, 149747.51itBuilding dataset for timeline analysis:  57%|█████▏   | 1310095/2279011 [00:10<00:06, 148657.22itBuilding dataset for timeline analysis:  58%|█████▏   | 1325086/2279011 [00:10<00:06, 147874.04itBuilding dataset for timeline analysis:  59%|█████▎   | 1340201/2279011 [00:10<00:06, 148832.41itBuilding dataset for timeline analysis:  59%|█████▎   | 1355090/2279011 [00:10<00:06, 147699.28itBuilding dataset for timeline analysis:  60%|█████▍   | 1369981/2279011 [00:10<00:06, 146925.47itBuilding dataset for timeline analysis:  61%|█████▍   | 1385010/2279011 [00:10<00:06, 147915.67itBuilding dataset for timeline analysis:  61%|█████▌   | 1399806/2279011 [00:10<00:05, 146779.39itBuilding dataset for timeline analysis:  62%|█████▌   | 1414876/2279011 [00:10<00:05, 147933.98itBuilding dataset for timeline analysis:  63%|█████▋   | 1429674/2279011 [00:10<00:05, 146899.55itBuilding dataset for timeline analysis:  63%|█████▋   | 1444638/2279011 [00:10<00:05, 146567.40itBuilding dataset for timeline analysis:  64%|█████▊   | 1459771/2279011 [00:11<00:05, 147904.64itBuilding dataset for timeline analysis:  65%|█████▊   | 1474565/2279011 [00:11<00:05, 146868.62itBuilding dataset for timeline analysis:  65%|█████▉   | 1489533/2279011 [00:11<00:05, 147669.96itBuilding dataset for timeline analysis:  66%|█████▉   | 1504304/2279011 [00:11<00:05, 146655.33itBuilding dataset for timeline analysis:  67%|█████▉   | 1519295/2279011 [00:11<00:05, 146423.12itBuilding dataset for timeline analysis:  67%|██████   | 1534428/2279011 [00:11<00:05, 147847.90itBuilding dataset for timeline analysis:  68%|██████   | 1549217/2279011 [00:11<00:04, 146841.44itBuilding dataset for timeline analysis:  69%|██████▏  | 1564190/2279011 [00:11<00:04, 147619.94itBuilding dataset for timeline analysis:  69%|██████▏  | 1578955/2279011 [00:11<00:04, 146638.52itBuilding dataset for timeline analysis:  70%|██████▎  | 1593951/2279011 [00:12<00:04, 147613.69itBuilding dataset for timeline analysis:  71%|██████▎  | 1608716/2279011 [00:12<00:04, 146628.70itBuilding dataset for timeline analysis:  71%|██████▍  | 1623714/2279011 [00:12<00:04, 146438.34itBuilding dataset for timeline analysis:  72%|██████▍  | 1638847/2279011 [00:12<00:04, 147878.49itBuilding dataset for timeline analysis:  73%|██████▌  | 1653639/2279011 [00:12<00:04, 146912.85itBuilding dataset for timeline analysis:  73%|██████▌  | 1668608/2279011 [00:12<00:04, 147705.94itBuilding dataset for timeline analysis:  74%|██████▋  | 1683382/2279011 [00:12<00:04, 146704.13itBuilding dataset for timeline analysis:  75%|██████▋  | 1698371/2279011 [00:12<00:03, 146481.15itBuilding dataset for timeline analysis:  75%|██████▊  | 1713494/2279011 [00:12<00:03, 147885.52itBuilding dataset for timeline analysis:  76%|██████▊  | 1728286/2279011 [00:12<00:03, 146772.29itBuilding dataset for timeline analysis:  76%|██████▉  | 1743266/2279011 [00:13<00:03, 146465.05itBuilding dataset for timeline analysis:  77%|██████▉  | 1758390/2279011 [00:13<00:03, 147875.56itBuilding dataset for timeline analysis:  78%|███████  | 1773182/2279011 [00:13<00:03, 146785.30itBuilding dataset for timeline analysis:  78%|███████  | 1788161/2279011 [00:13<00:03, 146464.66itBuilding dataset for timeline analysis:  79%|███████  | 1803281/2279011 [00:13<00:03, 147862.95itBuilding dataset for timeline analysis:  80%|███████▏ | 1818072/2279011 [00:13<00:03, 146743.10itBuilding dataset for timeline analysis:  80%|███████▏ | 1833056/2279011 [00:13<00:03, 146469.19itBuilding dataset for timeline analysis:  81%|███████▎ | 1848076/2279011 [00:13<00:02, 147570.05itBuilding dataset for timeline analysis:  82%|███████▎ | 1862837/2279011 [00:13<00:02, 146500.58itBuilding dataset for timeline analysis:  82%|███████▍ | 1877950/2279011 [00:13<00:02, 147826.34itBuilding dataset for timeline analysis:  83%|███████▍ | 1892737/2279011 [00:14<00:02, 146791.06itBuilding dataset for timeline analysis:  84%|███████▌ | 1907712/2279011 [00:14<00:02, 147627.04itBuilding dataset for timeline analysis:  84%|███████▌ | 1922478/2279011 [00:14<00:02, 146610.38itBuilding dataset for timeline analysis:  85%|███████▋ | 1937474/2279011 [00:14<00:02, 147590.26itBuilding dataset for timeline analysis:  86%|███████▋ | 1952237/2279011 [00:14<00:02, 146485.11itBuilding dataset for timeline analysis:  86%|███████▊ | 1967236/2279011 [00:14<00:02, 147519.94itBuilding dataset for timeline analysis:  87%|███████▊ | 1981992/2279011 [00:14<00:02, 146422.10itBuilding dataset for timeline analysis:  88%|███████▉ | 1996999/2279011 [00:14<00:01, 146290.43itBuilding dataset for timeline analysis:  88%|███████▉ | 2012095/2279011 [00:14<00:01, 147670.28itBuilding dataset for timeline analysis:  89%|████████ | 2026866/2279011 [00:14<00:01, 146476.67itBuilding dataset for timeline analysis:  90%|████████ | 2041893/2279011 [00:15<00:01, 147589.80itBuilding dataset for timeline analysis:  90%|████████ | 2056656/2279011 [00:15<00:01, 146577.08itBuilding dataset for timeline analysis:  91%|████████▏| 2071655/2279011 [00:15<00:01, 147545.17itBuilding dataset for timeline analysis:  92%|████████▏| 2086413/2279011 [00:15<00:01, 146559.53itBuilding dataset for timeline analysis:  92%|████████▎| 2101417/2279011 [00:15<00:01, 147548.11itBuilding dataset for timeline analysis:  93%|████████▎| 2116176/2279011 [00:15<00:01, 146516.77itBuilding dataset for timeline analysis:  94%|████████▍| 2131179/2279011 [00:15<00:01, 147532.00itBuilding dataset for timeline analysis:  94%|████████▍| 2145936/2279011 [00:15<00:00, 146501.74itBuilding dataset for timeline analysis:  95%|████████▌| 2160941/2279011 [00:15<00:00, 147544.52itBuilding dataset for timeline analysis:  95%|████████▌| 2175699/2279011 [00:15<00:00, 146585.82itBuilding dataset for timeline analysis:  96%|████████▋| 2190702/2279011 [00:16<00:00, 147555.92itBuilding dataset for timeline analysis:  97%|████████▋| 2205461/2279011 [00:16<00:00, 146534.90itBuilding dataset for timeline analysis:  97%|████████▊| 2220464/2279011 [00:16<00:00, 147552.84itBuilding dataset for timeline analysis:  98%|████████▊| 2235223/2279011 [00:16<00:00, 146560.54itBuilding dataset for timeline analysis:  99%|████████▉| 2250278/2279011 [00:16<00:00, 146861.93itBuilding dataset for timeline analysis:  99%|████████▉| 2265885/2279011 [00:16<00:00, 149592.15it
+
+[2025-05-19 18:11:15][INFO] Start analysis OperatorBoundAnalyzer with ProfilingDataset
+[2025-05-19 18:11:55][INFO] Start analysis BlockDimAnalyzer with ProfilingDataset
+[2025-05-19 18:12:40][INFO] Start analysis FusionOPAnalyzer with GraphDataset
+[2025-05-19 18:12:42][INFO] Start analysis AICoreFreqAnalyzer with timeline_event_dataset
+[2025-05-19 18:14:07][INFO] Start analysis DynamicShapeAnalyzer with ProfilingDataset
+[2025-05-19 18:14:51][INFO] Start analysis AicpuAnalyzer with ProfilingDataset
+Building dataset for timeline analysis:   0%|                           | 0/2299714 [00:00<?, ?itBuilding dataset for timeline analysis:   0%|             | 4609/2299714 [00:00<00:49, 45931.58itBuilding dataset for timeline analysis:   0%|             | 9203/2299714 [00:00<00:49, 45911.41itBuilding dataset for timeline analysis:   1%|            | 16377/2299714 [00:00<00:39, 57319.70itBuilding dataset for timeline analysis:   1%|▏           | 25139/2299714 [00:00<00:32, 69172.33itBuilding dataset for timeline analysis:   1%|▏           | 32056/2299714 [00:00<00:38, 59007.56itBuilding dataset for timeline analysis:   2%|▏           | 38165/2299714 [00:00<00:38, 59030.57itBuilding dataset for timeline analysis:   2%|▏           | 47008/2299714 [00:00<00:33, 67800.34itBuilding dataset for timeline analysis:   2%|▎           | 54297/2299714 [00:00<00:32, 69328.35itBuilding dataset for timeline analysis:   3%|▎           | 61778/2299714 [00:00<00:31, 70819.69itBuilding dataset for timeline analysis:   3%|▎           | 69293/2299714 [00:01<00:30, 72062.26itBuilding dataset for timeline analysis:   3%|▍           | 77147/2299714 [00:01<00:30, 73894.62itBuilding dataset for timeline analysis:   4%|▍           | 84671/2299714 [00:01<00:29, 74296.31itBuilding dataset for timeline analysis:   4%|▌           | 96769/2299714 [00:01<00:25, 87932.68itBuilding dataset for timeline analysis:   5%|▍         | 110337/2299714 [00:01<00:21, 102202.62itBuilding dataset for timeline analysis:   5%|▌         | 123992/2299714 [00:01<00:19, 111870.49itBuilding dataset for timeline analysis:   6%|▌         | 137722/2299714 [00:01<00:18, 118784.61itBuilding dataset for timeline analysis:   7%|▋         | 151340/2299714 [00:01<00:17, 123618.59itBuilding dataset for timeline analysis:   7%|▋         | 164527/2299714 [00:01<00:17, 125512.63itBuilding dataset for timeline analysis:   8%|▊         | 177085/2299714 [00:01<00:17, 121546.83itBuilding dataset for timeline analysis:   8%|▊         | 189268/2299714 [00:02<00:17, 117695.90itBuilding dataset for timeline analysis:   9%|▊         | 201075/2299714 [00:02<00:18, 116214.24itBuilding dataset for timeline analysis:   9%|▉         | 212721/2299714 [00:02<00:18, 114849.80itBuilding dataset for timeline analysis:  10%|▉         | 224222/2299714 [00:02<00:18, 113755.40itBuilding dataset for timeline analysis:  10%|█         | 235607/2299714 [00:02<00:18, 113013.56itBuilding dataset for timeline analysis:  11%|█         | 246914/2299714 [00:02<00:18, 112721.06itBuilding dataset for timeline analysis:  11%|█         | 258190/2299714 [00:02<00:18, 112450.93itBuilding dataset for timeline analysis:  12%|█▏        | 269437/2299714 [00:02<00:18, 111296.36itBuilding dataset for timeline analysis:  12%|█▏        | 280596/2299714 [00:02<00:18, 111381.16itBuilding dataset for timeline analysis:  13%|█▎        | 291736/2299714 [00:03<00:18, 111341.28itBuilding dataset for timeline analysis:  13%|█▎        | 302872/2299714 [00:03<00:17, 111289.09itBuilding dataset for timeline analysis:  14%|█▎        | 314002/2299714 [00:03<00:17, 110686.45itBuilding dataset for timeline analysis:  14%|█▍        | 325085/2299714 [00:03<00:17, 110571.06itBuilding dataset for timeline analysis:  15%|█▍        | 336293/2299714 [00:03<00:17, 111018.85itBuilding dataset for timeline analysis:  15%|█▌        | 347396/2299714 [00:03<00:18, 106861.14itBuilding dataset for timeline analysis:  16%|█▌        | 358115/2299714 [00:03<00:18, 104582.94itBuilding dataset for timeline analysis:  16%|█▊         | 368601/2299714 [00:03<00:22, 85626.40itBuilding dataset for timeline analysis:  17%|█▋        | 383004/2299714 [00:03<00:19, 100371.30itBuilding dataset for timeline analysis:  17%|█▋        | 397651/2299714 [00:04<00:16, 112009.86itBuilding dataset for timeline analysis:  18%|█▊        | 412321/2299714 [00:04<00:15, 120625.52itBuilding dataset for timeline analysis:  19%|█▊        | 426981/2299714 [00:04<00:14, 127425.19itBuilding dataset for timeline analysis:  19%|█▉        | 441919/2299714 [00:04<00:13, 133673.22itBuilding dataset for timeline analysis:  20%|█▉        | 456312/2299714 [00:04<00:13, 136358.63itBuilding dataset for timeline analysis:  20%|██        | 470168/2299714 [00:04<00:14, 122386.57itBuilding dataset for timeline analysis:  21%|██        | 482817/2299714 [00:04<00:15, 114797.69itBuilding dataset for timeline analysis:  22%|██▏       | 494638/2299714 [00:04<00:16, 111885.76itBuilding dataset for timeline analysis:  22%|██▏       | 506055/2299714 [00:04<00:16, 106180.73itBuilding dataset for timeline analysis:  22%|██▏       | 516850/2299714 [00:05<00:17, 101258.02itBuilding dataset for timeline analysis:  23%|██▌        | 527104/2299714 [00:05<00:17, 98478.38itBuilding dataset for timeline analysis:  23%|██▎       | 537874/2299714 [00:05<00:17, 100950.45itBuilding dataset for timeline analysis:  24%|██▍       | 553936/2299714 [00:05<00:14, 117430.08itBuilding dataset for timeline analysis:  25%|██▍       | 567942/2299714 [00:05<00:14, 123395.51itBuilding dataset for timeline analysis:  25%|██▌       | 582411/2299714 [00:05<00:13, 128978.02itBuilding dataset for timeline analysis:  26%|██▌       | 596883/2299714 [00:05<00:12, 133003.04itBuilding dataset for timeline analysis:  27%|██▋       | 612883/2299714 [00:05<00:11, 140715.66itBuilding dataset for timeline analysis:  27%|██▋       | 629353/2299714 [00:05<00:11, 147358.36itBuilding dataset for timeline analysis:  28%|██▊       | 645838/2299714 [00:05<00:10, 152219.93itBuilding dataset for timeline analysis:  29%|██▉       | 662325/2299714 [00:06<00:10, 155720.81itBuilding dataset for timeline analysis:  30%|██▉       | 678813/2299714 [00:06<00:10, 158172.34itBuilding dataset for timeline analysis:  30%|███       | 695298/2299714 [00:06<00:10, 159828.09itBuilding dataset for timeline analysis:  31%|███       | 711777/2299714 [00:06<00:09, 161052.75itBuilding dataset for timeline analysis:  32%|███▏      | 728263/2299714 [00:06<00:09, 162000.00itBuilding dataset for timeline analysis:  32%|███▏      | 744733/2299714 [00:06<00:09, 162620.67itBuilding dataset for timeline analysis:  33%|███▎      | 761220/2299714 [00:06<00:09, 163126.12itBuilding dataset for timeline analysis:  34%|███▍      | 777705/2299714 [00:06<00:09, 163459.57itBuilding dataset for timeline analysis:  35%|███▍      | 794167/2299714 [00:06<00:09, 163662.02itBuilding dataset for timeline analysis:  35%|███▌      | 810633/2299714 [00:06<00:09, 163811.50itBuilding dataset for timeline analysis:  36%|███▌      | 827101/2299714 [00:07<00:08, 163943.22itBuilding dataset for timeline analysis:  37%|███▋      | 843557/2299714 [00:07<00:08, 163970.26itBuilding dataset for timeline analysis:  37%|███▋      | 860009/2299714 [00:07<00:08, 164028.44itBuilding dataset for timeline analysis:  38%|███▊      | 876480/2299714 [00:07<00:08, 163944.67itBuilding dataset for timeline analysis:  39%|███▉      | 892948/2299714 [00:07<00:08, 163686.35itBuilding dataset for timeline analysis:  40%|███▉      | 909398/2299714 [00:07<00:08, 163879.33itBuilding dataset for timeline analysis:  40%|████      | 925872/2299714 [00:07<00:08, 164082.63itBuilding dataset for timeline analysis:  41%|████      | 942339/2299714 [00:07<00:08, 164143.22itBuilding dataset for timeline analysis:  42%|████▏     | 958871/2299714 [00:07<00:08, 164493.21itBuilding dataset for timeline analysis:  42%|████▏     | 975321/2299714 [00:07<00:08, 164428.70itBuilding dataset for timeline analysis:  43%|████▎     | 991765/2299714 [00:08<00:07, 164396.55itBuilding dataset for timeline analysis:  44%|███▉     | 1008215/2299714 [00:08<00:07, 164425.60itBuilding dataset for timeline analysis:  45%|████     | 1024658/2299714 [00:08<00:07, 164345.34itBuilding dataset for timeline analysis:  45%|████     | 1041093/2299714 [00:08<00:07, 164329.75itBuilding dataset for timeline analysis:  46%|████▏    | 1057527/2299714 [00:08<00:07, 164263.48itBuilding dataset for timeline analysis:  47%|████▏    | 1073963/2299714 [00:08<00:07, 164245.16itBuilding dataset for timeline analysis:  47%|████▎    | 1090494/2299714 [00:08<00:07, 164561.59itBuilding dataset for timeline analysis:  48%|████▎    | 1106951/2299714 [00:08<00:07, 164528.76itBuilding dataset for timeline analysis:  49%|████▍    | 1123404/2299714 [00:08<00:07, 164518.01itBuilding dataset for timeline analysis:  50%|████▍    | 1139856/2299714 [00:08<00:07, 164499.01itBuilding dataset for timeline analysis:  50%|████▌    | 1156306/2299714 [00:09<00:06, 164411.66itBuilding dataset for timeline analysis:  51%|████▌    | 1173064/2299714 [00:09<00:06, 165359.71itBuilding dataset for timeline analysis:  52%|████▋    | 1189601/2299714 [00:09<00:06, 165281.31itBuilding dataset for timeline analysis:  52%|████▋    | 1206130/2299714 [00:09<00:06, 165212.64itBuilding dataset for timeline analysis:  53%|████▊    | 1222652/2299714 [00:09<00:06, 163675.66itBuilding dataset for timeline analysis:  54%|████▊    | 1239023/2299714 [00:09<00:06, 159546.96itBuilding dataset for timeline analysis:  55%|████▉    | 1255001/2299714 [00:09<00:06, 155599.08itBuilding dataset for timeline analysis:  55%|████▉    | 1270591/2299714 [00:09<00:06, 153318.96itBuilding dataset for timeline analysis:  56%|█████    | 1285945/2299714 [00:09<00:06, 152346.86itBuilding dataset for timeline analysis:  57%|█████    | 1301193/2299714 [00:09<00:06, 151546.05itBuilding dataset for timeline analysis:  57%|█████▏   | 1316356/2299714 [00:10<00:06, 149460.89itBuilding dataset for timeline analysis:  58%|█████▏   | 1331466/2299714 [00:10<00:06, 149157.46itBuilding dataset for timeline analysis:  59%|█████▎   | 1346599/2299714 [00:10<00:06, 148690.15itBuilding dataset for timeline analysis:  59%|█████▎   | 1361733/2299714 [00:10<00:06, 148514.30itBuilding dataset for timeline analysis:  60%|█████▍   | 1376866/2299714 [00:10<00:06, 148321.68itBuilding dataset for timeline analysis:  61%|█████▍   | 1391999/2299714 [00:10<00:06, 148362.32itBuilding dataset for timeline analysis:  61%|█████▌   | 1407132/2299714 [00:10<00:06, 148257.46itBuilding dataset for timeline analysis:  62%|█████▌   | 1422265/2299714 [00:10<00:05, 148358.79itBuilding dataset for timeline analysis:  63%|█████▋   | 1437398/2299714 [00:10<00:05, 148344.19itBuilding dataset for timeline analysis:  63%|█████▋   | 1452532/2299714 [00:11<00:05, 148427.33itBuilding dataset for timeline analysis:  64%|█████▋   | 1467665/2299714 [00:11<00:05, 148464.26itBuilding dataset for timeline analysis:  64%|█████▊   | 1482798/2299714 [00:11<00:05, 148454.42itBuilding dataset for timeline analysis:  65%|█████▊   | 1497931/2299714 [00:11<00:05, 148303.78itBuilding dataset for timeline analysis:  66%|█████▉   | 1513064/2299714 [00:11<00:05, 148235.75itBuilding dataset for timeline analysis:  66%|█████▉   | 1528198/2299714 [00:11<00:05, 148304.40itBuilding dataset for timeline analysis:  67%|██████   | 1543331/2299714 [00:11<00:05, 148332.09itBuilding dataset for timeline analysis:  68%|██████   | 1558464/2299714 [00:11<00:05, 148194.07itBuilding dataset for timeline analysis:  68%|██████▏  | 1573597/2299714 [00:11<00:04, 148204.75itBuilding dataset for timeline analysis:  69%|██████▏  | 1588730/2299714 [00:11<00:04, 148126.53itBuilding dataset for timeline analysis:  70%|██████▎  | 1603863/2299714 [00:12<00:04, 148187.97itBuilding dataset for timeline analysis:  70%|██████▎  | 1618997/2299714 [00:12<00:04, 148196.89itBuilding dataset for timeline analysis:  71%|██████▍  | 1634130/2299714 [00:12<00:04, 148203.41itBuilding dataset for timeline analysis:  72%|██████▍  | 1649263/2299714 [00:12<00:04, 148265.40itBuilding dataset for timeline analysis:  72%|██████▌  | 1664396/2299714 [00:12<00:04, 148179.52itBuilding dataset for timeline analysis:  73%|██████▌  | 1679529/2299714 [00:12<00:04, 148170.18itBuilding dataset for timeline analysis:  74%|██████▋  | 1694662/2299714 [00:12<00:04, 148087.11itBuilding dataset for timeline analysis:  74%|██████▋  | 1709796/2299714 [00:12<00:03, 148183.84itBuilding dataset for timeline analysis:  75%|██████▊  | 1724929/2299714 [00:12<00:03, 148135.13itBuilding dataset for timeline analysis:  76%|██████▊  | 1740062/2299714 [00:12<00:03, 148094.94itBuilding dataset for timeline analysis:  76%|██████▊  | 1755195/2299714 [00:13<00:03, 148203.00itBuilding dataset for timeline analysis:  77%|██████▉  | 1770328/2299714 [00:13<00:03, 148249.43itBuilding dataset for timeline analysis:  78%|██████▉  | 1785462/2299714 [00:13<00:03, 148300.90itBuilding dataset for timeline analysis:  78%|███████  | 1800595/2299714 [00:13<00:03, 148364.69itBuilding dataset for timeline analysis:  79%|███████  | 1815728/2299714 [00:13<00:03, 148242.28itBuilding dataset for timeline analysis:  80%|███████▏ | 1830861/2299714 [00:13<00:03, 148161.37itBuilding dataset for timeline analysis:  80%|███████▏ | 1845994/2299714 [00:13<00:03, 148111.43itBuilding dataset for timeline analysis:  81%|███████▎ | 1861127/2299714 [00:13<00:02, 148133.41itBuilding dataset for timeline analysis:  82%|███████▎ | 1876261/2299714 [00:13<00:02, 148180.27itBuilding dataset for timeline analysis:  82%|███████▍ | 1891394/2299714 [00:13<00:02, 148109.61itBuilding dataset for timeline analysis:  83%|███████▍ | 1906527/2299714 [00:14<00:02, 148196.88itBuilding dataset for timeline analysis:  84%|███████▌ | 1921660/2299714 [00:14<00:02, 148198.73itBuilding dataset for timeline analysis:  84%|███████▌ | 1936793/2299714 [00:14<00:02, 148214.04itBuilding dataset for timeline analysis:  85%|███████▋ | 1951926/2299714 [00:14<00:02, 148097.56itBuilding dataset for timeline analysis:  86%|███████▋ | 1967060/2299714 [00:14<00:02, 148214.21itBuilding dataset for timeline analysis:  86%|███████▊ | 1982193/2299714 [00:14<00:02, 148258.32itBuilding dataset for timeline analysis:  87%|███████▊ | 1997326/2299714 [00:14<00:02, 148262.62itBuilding dataset for timeline analysis:  88%|███████▉ | 2012459/2299714 [00:14<00:01, 148075.52itBuilding dataset for timeline analysis:  88%|███████▉ | 2027592/2299714 [00:14<00:01, 148117.70itBuilding dataset for timeline analysis:  89%|███████▉ | 2042725/2299714 [00:14<00:01, 148143.40itBuilding dataset for timeline analysis:  89%|████████ | 2057858/2299714 [00:15<00:01, 148100.62itBuilding dataset for timeline analysis:  90%|████████ | 2072992/2299714 [00:15<00:01, 148194.14itBuilding dataset for timeline analysis:  91%|████████▏| 2088125/2299714 [00:15<00:01, 148281.77itBuilding dataset for timeline analysis:  91%|████████▏| 2103258/2299714 [00:15<00:01, 148200.82itBuilding dataset for timeline analysis:  92%|████████▎| 2118391/2299714 [00:15<00:01, 148241.16itBuilding dataset for timeline analysis:  93%|████████▎| 2133524/2299714 [00:15<00:01, 148241.25itBuilding dataset for timeline analysis:  93%|████████▍| 2148657/2299714 [00:15<00:01, 148263.13itBuilding dataset for timeline analysis:  94%|████████▍| 2163791/2299714 [00:15<00:00, 148261.23itBuilding dataset for timeline analysis:  95%|████████▌| 2178924/2299714 [00:15<00:00, 148169.55itBuilding dataset for timeline analysis:  95%|████████▌| 2194057/2299714 [00:16<00:00, 148188.94itBuilding dataset for timeline analysis:  96%|████████▋| 2209190/2299714 [00:16<00:00, 148187.88itBuilding dataset for timeline analysis:  97%|████████▋| 2224323/2299714 [00:16<00:00, 148240.19itBuilding dataset for timeline analysis:  97%|████████▊| 2239456/2299714 [00:16<00:00, 148181.19itBuilding dataset for timeline analysis:  98%|████████▊| 2254590/2299714 [00:16<00:00, 148266.60itBuilding dataset for timeline analysis:  99%|████████▉| 2269599/2299714 [00:16<00:00, 148803.75itBuilding dataset for timeline analysis:  99%|████████▉| 2285282/2299714 [00:16<00:00, 150360.78it                                                                                                 [2025-05-19 18:17:01][INFO] Start analysis OperatorBoundAnalyzer with ProfilingDataset
+[2025-05-19 18:17:46][INFO] Start analysis BlockDimAnalyzer with ProfilingDataset
+[2025-05-19 18:18:27][INFO] Start analysis FusionOPAnalyzer with GraphDataset
+[2025-05-19 18:18:29][INFO] Start analysis AICoreFreqAnalyzer with timeline_event_dataset
+[2025-05-19 18:19:54][INFO] Start analysis DynamicShapeAnalyzer with ProfilingDataset
+[2025-05-19 18:20:37][INFO] Start analysis AicpuAnalyzer with ProfilingDataset
+
+Building dataset for timeline analysis:   0%|             | 4883/2279011 [00:00<01:33, 24397.76itBuilding dataset for timeline analysis:   0%|             | 7323/2279011 [00:00<01:33, 24265.96itBuilding dataset for timeline analysis:   0%|             | 9750/2279011 [00:00<01:33, 24177.84itBuilding dataset for timeline analysis:   1%|            | 12548/2279011 [00:00<01:28, 25527.79itBuilding dataset for timeline analysis:   1%|            | 15911/2279011 [00:00<01:20, 28271.75itBuilding dataset for timeline analysis:   1%|            | 19245/2279011 [00:00<01:15, 29922.30itBuilding dataset for timeline analysis:   1%|            | 22676/2279011 [00:00<01:12, 31312.11itBuilding dataset for timeline analysis:   1%|▏           | 25809/2279011 [00:00<01:12, 30947.54itBuilding dataset for timeline analysis:   1%|▏           | 28906/2279011 [00:01<01:18, 28521.90itBuilding dataset for timeline analysis:   1%|▏           | 31795/2279011 [00:01<01:22, 27136.89itBuilding dataset for timeline analysis:   2%|▏           | 34542/2279011 [00:01<01:25, 26233.38itBuilding dataset for timeline analysis:   2%|▏           | 37428/2279011 [00:01<01:23, 26963.22itBuilding dataset for timeline analysis:   2%|▏           | 40809/2279011 [00:01<01:17, 28909.62itBuilding dataset for timeline analysis:   2%|▏           | 44183/2279011 [00:01<01:13, 30241.05itBuilding dataset for timeline analysis:   2%|▎           | 47583/2279011 [00:01<01:11, 31308.82itBuilding dataset for timeline analysis:   2%|▎           | 50840/2279011 [00:01<01:10, 31640.18itBuilding dataset for timeline analysis:   2%|▎           | 54019/2279011 [00:01<01:11, 30917.69itBuilding dataset for timeline analysis:   3%|▎           | 57124/2279011 [00:01<01:12, 30516.24itBuilding dataset for timeline analysis:   3%|▎           | 60341/2279011 [00:02<01:11, 30996.78itBuilding dataset for timeline analysis:   3%|▎           | 63464/2279011 [00:02<01:11, 31042.37itBuilding dataset for timeline analysis:   3%|▎           | 66591/2279011 [00:02<01:11, 31055.73itBuilding dataset for timeline analysis:   3%|▎           | 69710/2279011 [00:02<01:11, 31091.06itBuilding dataset for timeline analysis:   3%|▍           | 72889/2279011 [00:02<01:10, 31298.16itBuilding dataset for timeline analysis:   3%|▍           | 76090/2279011 [00:02<01:10, 31449.12itBuilding dataset for timeline analysis:   3%|▍           | 79237/2279011 [00:02<01:10, 31305.05itBuilding dataset for timeline analysis:   4%|▍           | 82369/2279011 [00:02<01:10, 31130.88itBuilding dataset for timeline analysis:   4%|▍           | 85490/2279011 [00:02<01:10, 31104.91itBuilding dataset for timeline analysis:   4%|▍           | 89106/2279011 [00:02<01:07, 32608.45itBuilding dataset for timeline analysis:   4%|▍           | 93026/2279011 [00:03<01:03, 34573.34itBuilding dataset for timeline analysis:   4%|▌           | 96837/2279011 [00:03<01:01, 35572.97itBuilding dataset for timeline analysis:   4%|▍          | 100751/2279011 [00:03<00:59, 36637.88itBuilding dataset for timeline analysis:   5%|▌          | 104688/2279011 [00:03<00:58, 37452.98itBuilding dataset for timeline analysis:   5%|▌          | 108620/2279011 [00:03<00:57, 38001.37itBuilding dataset for timeline analysis:   5%|▌          | 112422/2279011 [00:03<00:57, 37993.80itBuilding dataset for timeline analysis:   5%|▌          | 116343/2279011 [00:03<00:56, 38357.43itBuilding dataset for timeline analysis:   5%|▌          | 120276/2279011 [00:03<00:55, 38648.36itBuilding dataset for timeline analysis:   5%|▌          | 124142/2279011 [00:03<00:55, 38548.07itBuilding dataset for timeline analysis:   6%|▌          | 128101/2279011 [00:03<00:55, 38838.00itBuilding dataset for timeline analysis:   6%|▋          | 131986/2279011 [00:04<00:55, 38739.38itBuilding dataset for timeline analysis:   6%|▋          | 135861/2279011 [00:04<00:55, 38650.20itBuilding dataset for timeline analysis:   6%|▋          | 139796/2279011 [00:04<00:55, 38652.57itBuilding dataset for timeline analysis:   6%|▋          | 143769/2279011 [00:04<00:54, 38972.08itBuilding dataset for timeline analysis:   6%|▋          | 147667/2279011 [00:04<00:54, 38836.40itBuilding dataset for timeline analysis:   7%|▋          | 151551/2279011 [00:04<00:54, 38712.43itBuilding dataset for timeline analysis:   7%|▊          | 155423/2279011 [00:04<00:54, 38613.37itBuilding dataset for timeline analysis:   7%|▊          | 159285/2279011 [00:04<00:55, 38251.99itBuilding dataset for timeline analysis:   7%|▊          | 163111/2279011 [00:04<00:55, 37891.96itBuilding dataset for timeline analysis:   7%|▊          | 166902/2279011 [00:05<00:56, 37194.12itBuilding dataset for timeline analysis:   7%|▊          | 170624/2279011 [00:05<00:57, 36712.50itBuilding dataset for timeline analysis:   8%|▊          | 174298/2279011 [00:05<00:57, 36308.17itBuilding dataset for timeline analysis:   8%|▊          | 177931/2279011 [00:05<00:57, 36267.10itBuilding dataset for timeline analysis:   8%|▉          | 181559/2279011 [00:05<00:58, 36141.58itBuilding dataset for timeline analysis:   8%|▉          | 185174/2279011 [00:05<00:58, 35999.41itBuilding dataset for timeline analysis:   8%|▉          | 188775/2279011 [00:05<00:58, 35861.90itBuilding dataset for timeline analysis:   8%|▉          | 192437/2279011 [00:05<00:57, 36084.20itBuilding dataset for timeline analysis:   9%|▉          | 196046/2279011 [00:05<00:57, 35946.41itBuilding dataset for timeline analysis:   9%|▉          | 199641/2279011 [00:05<00:58, 35801.03itBuilding dataset for timeline analysis:   9%|▉          | 203222/2279011 [00:06<00:58, 35663.83itBuilding dataset for timeline analysis:   9%|▉          | 206872/2279011 [00:06<00:58, 35655.08itBuilding dataset for timeline analysis:   9%|█          | 210541/2279011 [00:06<00:57, 35940.19itBuilding dataset for timeline analysis:   9%|█          | 214136/2279011 [00:06<00:57, 35870.79itBuilding dataset for timeline analysis:  10%|█          | 217724/2279011 [00:06<00:57, 35760.78itBuilding dataset for timeline analysis:  10%|█          | 221301/2279011 [00:06<00:57, 35711.69itBuilding dataset for timeline analysis:  10%|█          | 224873/2279011 [00:06<00:57, 35610.54itBuilding dataset for timeline analysis:  10%|█          | 228482/2279011 [00:06<00:57, 35582.97itBuilding dataset for timeline analysis:  10%|█          | 232113/2279011 [00:06<00:57, 35628.69itBuilding dataset for timeline analysis:  10%|█▏         | 235696/2279011 [00:06<00:57, 35687.86itBuilding dataset for timeline analysis:  11%|█▏         | 239325/2279011 [00:07<00:57, 35656.16itBuilding dataset for timeline analysis:  11%|█▏         | 242976/2279011 [00:07<00:56, 35908.04itBuilding dataset for timeline analysis:  11%|█▏         | 246568/2279011 [00:07<00:56, 35868.55itBuilding dataset for timeline analysis:  11%|█▏         | 250156/2279011 [00:07<00:56, 35804.15itBuilding dataset for timeline analysis:  11%|█▏         | 253737/2279011 [00:07<00:56, 35670.53itBuilding dataset for timeline analysis:  11%|█▏         | 257305/2279011 [00:07<00:56, 35522.62itBuilding dataset for timeline analysis:  11%|█▎         | 260858/2279011 [00:07<00:56, 35443.05itBuilding dataset for timeline analysis:  12%|█▎         | 264486/2279011 [00:07<00:56, 35680.13itBuilding dataset for timeline analysis:  12%|█▎         | 268055/2279011 [00:07<00:56, 35592.85itBuilding dataset for timeline analysis:  12%|█▎         | 271615/2279011 [00:07<00:56, 35530.18itBuilding dataset for timeline analysis:  12%|█▎         | 275169/2279011 [00:08<00:56, 35430.33itBuilding dataset for timeline analysis:  12%|█▎         | 278794/2279011 [00:08<00:56, 35673.02itBuilding dataset for timeline analysis:  12%|█▎         | 282362/2279011 [00:08<00:56, 35535.94itBuilding dataset for timeline analysis:  13%|█▍         | 285932/2279011 [00:08<00:56, 35436.40itBuilding dataset for timeline analysis:  13%|█▍         | 289520/2279011 [00:08<00:55, 35566.57itBuilding dataset for timeline analysis:  13%|█▍         | 293077/2279011 [00:08<00:56, 35399.48itBuilding dataset for timeline analysis:  13%|█▍         | 296673/2279011 [00:08<00:55, 35564.30itBuilding dataset for timeline analysis:  13%|█▍         | 300230/2279011 [00:08<00:55, 35386.38itBuilding dataset for timeline analysis:  13%|█▍         | 303838/2279011 [00:08<00:55, 35592.09itBuilding dataset for timeline analysis:  13%|█▍         | 307398/2279011 [00:08<00:55, 35452.61itBuilding dataset for timeline analysis:  14%|█▌         | 310944/2279011 [00:09<00:55, 35383.42itBuilding dataset for timeline analysis:  14%|█▌         | 314517/2279011 [00:09<00:55, 35486.18itBuilding dataset for timeline analysis:  14%|█▌         | 318082/2279011 [00:09<00:55, 35301.76itBuilding dataset for timeline analysis:  14%|█▌         | 321666/2279011 [00:09<00:55, 35461.54itBuilding dataset for timeline analysis:  14%|█▌         | 325213/2279011 [00:09<00:55, 35184.81itBuilding dataset for timeline analysis:  14%|█▌         | 328752/2279011 [00:09<00:55, 35105.52itBuilding dataset for timeline analysis:  15%|█▌         | 332310/2279011 [00:09<00:55, 35106.59itBuilding dataset for timeline analysis:  15%|█▌         | 335908/2279011 [00:09<00:54, 35364.40itBuilding dataset for timeline analysis:  15%|█▋         | 339445/2279011 [00:09<00:54, 35288.92itBuilding dataset for timeline analysis:  15%|█▋         | 342975/2279011 [00:09<00:54, 35229.95itBuilding dataset for timeline analysis:  15%|█▋         | 346794/2279011 [00:10<00:53, 36112.28itBuilding dataset for timeline analysis:  15%|█▋         | 350831/2279011 [00:10<00:51, 37384.12itBuilding dataset for timeline analysis:  16%|█▋         | 354872/2279011 [00:10<00:50, 38287.24itBuilding dataset for timeline analysis:  16%|█▋         | 358752/2279011 [00:10<00:49, 38439.79itBuilding dataset for timeline analysis:  16%|█▊         | 362692/2279011 [00:10<00:49, 38725.56itBuilding dataset for timeline analysis:  16%|█▊         | 366604/2279011 [00:10<00:49, 38841.73itBuilding dataset for timeline analysis:  16%|█▊         | 370545/2279011 [00:10<00:48, 39010.90itBuilding dataset for timeline analysis:  16%|█▊         | 374482/2279011 [00:10<00:48, 39117.46itBuilding dataset for timeline analysis:  17%|█▊         | 378444/2279011 [00:10<00:48, 39266.12itBuilding dataset for timeline analysis:  17%|█▊         | 382414/2279011 [00:10<00:48, 39393.78itBuilding dataset for timeline analysis:  17%|█▊         | 386379/2279011 [00:11<00:47, 39468.41itBuilding dataset for timeline analysis:  17%|█▉         | 390331/2279011 [00:11<00:48, 39116.59itBuilding dataset for timeline analysis:  17%|█▉         | 394244/2279011 [00:11<00:49, 38397.58itBuilding dataset for timeline analysis:  17%|█▉         | 398087/2279011 [00:11<00:55, 33675.36itBuilding dataset for timeline analysis:  18%|█▉         | 401558/2279011 [00:11<01:00, 31217.59itBuilding dataset for timeline analysis:  18%|█▉         | 404774/2279011 [00:11<01:01, 30246.03itBuilding dataset for timeline analysis:  18%|█▉         | 408239/2279011 [00:11<00:59, 31409.35itBuilding dataset for timeline analysis:  18%|█▉         | 411575/2279011 [00:11<00:58, 31942.39itBuilding dataset for timeline analysis:  18%|██         | 415000/2279011 [00:11<00:57, 32590.31itBuilding dataset for timeline analysis:  18%|██         | 418326/2279011 [00:12<00:56, 32780.66itBuilding dataset for timeline analysis:  19%|██         | 421787/2279011 [00:12<00:55, 33311.47itBuilding dataset for timeline analysis:  19%|██         | 425139/2279011 [00:12<00:55, 33342.77itBuilding dataset for timeline analysis:  19%|██         | 428600/2279011 [00:12<00:55, 33507.89itBuilding dataset for timeline analysis:  19%|██         | 432044/2279011 [00:12<00:54, 33780.87itBuilding dataset for timeline analysis:  19%|██         | 435512/2279011 [00:12<00:54, 33941.62itBuilding dataset for timeline analysis:  19%|██         | 439020/2279011 [00:12<00:53, 34277.71itBuilding dataset for timeline analysis:  19%|██▏        | 442542/2279011 [00:12<00:53, 34346.70itBuilding dataset for timeline analysis:  20%|██▏        | 446048/2279011 [00:12<00:53, 34556.71itBuilding dataset for timeline analysis:  20%|██▏        | 449841/2279011 [00:12<00:51, 35561.17itBuilding dataset for timeline analysis:  20%|██▏        | 453795/2279011 [00:13<00:49, 36747.90itBuilding dataset for timeline analysis:  20%|██▏        | 457740/2279011 [00:13<00:48, 37529.77itBuilding dataset for timeline analysis:  20%|██▏        | 461573/2279011 [00:13<00:48, 37660.77itBuilding dataset for timeline analysis:  20%|██▏        | 465438/2279011 [00:13<00:47, 37883.13itBuilding dataset for timeline analysis:  21%|██▎        | 469343/2279011 [00:13<00:47, 38230.62itBuilding dataset for timeline analysis:  21%|██▎        | 473167/2279011 [00:13<00:48, 37245.10itBuilding dataset for timeline analysis:  21%|██▎        | 476898/2279011 [00:13<00:50, 36041.92itBuilding dataset for timeline analysis:  21%|██▎        | 480513/2279011 [00:13<00:51, 34781.96itBuilding dataset for timeline analysis:  21%|██▎        | 484005/2279011 [00:13<00:52, 34381.74itBuilding dataset for timeline analysis:  21%|██▎        | 487452/2279011 [00:14<00:53, 33738.99itBuilding dataset for timeline analysis:  22%|██▎        | 490832/2279011 [00:14<00:53, 33514.72itBuilding dataset for timeline analysis:  22%|██▍        | 494187/2279011 [00:14<00:53, 33064.28itBuilding dataset for timeline analysis:  22%|██▍        | 497496/2279011 [00:14<00:54, 32964.57itBuilding dataset for timeline analysis:  22%|██▍        | 500794/2279011 [00:14<00:54, 32853.96itBuilding dataset for timeline analysis:  22%|██▍        | 504081/2279011 [00:14<00:54, 32778.05itBuilding dataset for timeline analysis:  22%|██▍        | 507567/2279011 [00:14<00:53, 33390.11itBuilding dataset for timeline analysis:  22%|██▍        | 511616/2279011 [00:14<00:49, 35492.73itBuilding dataset for timeline analysis:  23%|██▍        | 515670/2279011 [00:14<00:47, 36993.17itBuilding dataset for timeline analysis:  23%|██▌        | 519738/2279011 [00:14<00:46, 38091.95itBuilding dataset for timeline analysis:  23%|██▌        | 523645/2279011 [00:15<00:45, 38382.88itBuilding dataset for timeline analysis:  23%|██▌        | 527584/2279011 [00:15<00:45, 38681.64itBuilding dataset for timeline analysis:  23%|██▌        | 531511/2279011 [00:15<00:44, 38855.43itBuilding dataset for timeline analysis:  23%|██▌        | 535464/2279011 [00:15<00:44, 39056.41itBuilding dataset for timeline analysis:  24%|██▌        | 539377/2279011 [00:15<00:44, 39077.92itBuilding dataset for timeline analysis:  24%|██▌        | 543286/2279011 [00:15<00:44, 39019.89itBuilding dataset for timeline analysis:  24%|██▋        | 547189/2279011 [00:15<00:44, 38998.34itBuilding dataset for timeline analysis:  24%|██▋        | 551090/2279011 [00:15<00:44, 38895.52itBuilding dataset for timeline analysis:  24%|██▋        | 554995/2279011 [00:15<00:44, 38940.71itBuilding dataset for timeline analysis:  25%|██▋        | 558895/2279011 [00:15<00:44, 38957.52itBuilding dataset for timeline analysis:  25%|██▋        | 562791/2279011 [00:16<00:44, 38932.75itBuilding dataset for timeline analysis:  25%|██▋        | 566694/2279011 [00:16<00:43, 38961.17itBuilding dataset for timeline analysis:  25%|██▊        | 570591/2279011 [00:16<00:43, 38953.92itBuilding dataset for timeline analysis:  25%|██▊        | 574487/2279011 [00:16<00:43, 38952.27itBuilding dataset for timeline analysis:  25%|██▊        | 578383/2279011 [00:16<00:43, 38914.24itBuilding dataset for timeline analysis:  26%|██▊        | 582276/2279011 [00:16<00:43, 38917.00itBuilding dataset for timeline analysis:  26%|██▊        | 586168/2279011 [00:16<00:43, 38760.06itBuilding dataset for timeline analysis:  26%|██▊        | 590045/2279011 [00:16<00:44, 38304.41itBuilding dataset for timeline analysis:  26%|██▊        | 593925/2279011 [00:16<00:43, 38450.72itBuilding dataset for timeline analysis:  26%|██▉        | 597802/2279011 [00:16<00:43, 38544.12itBuilding dataset for timeline analysis:  26%|██▉        | 601844/2279011 [00:17<00:42, 39101.78itBuilding dataset for timeline analysis:  27%|██▉        | 605894/2279011 [00:17<00:42, 39517.31itBuilding dataset for timeline analysis:  27%|██▉        | 609925/2279011 [00:17<00:41, 39753.02itBuilding dataset for timeline analysis:  27%|██▉        | 613973/2279011 [00:17<00:41, 39968.94itBuilding dataset for timeline analysis:  27%|██▉        | 618016/2279011 [00:17<00:41, 40105.90itBuilding dataset for timeline analysis:  27%|███        | 622051/2279011 [00:17<00:41, 40176.60itBuilding dataset for timeline analysis:  27%|███        | 626086/2279011 [00:17<00:41, 40226.07itBuilding dataset for timeline analysis:  28%|███        | 630109/2279011 [00:17<00:41, 39858.89itBuilding dataset for timeline analysis:  28%|███        | 634145/2279011 [00:17<00:41, 40006.59itBuilding dataset for timeline analysis:  28%|███        | 638189/2279011 [00:17<00:40, 40135.06itBuilding dataset for timeline analysis:  28%|███        | 642222/2279011 [00:18<00:40, 40190.72itBuilding dataset for timeline analysis:  28%|███        | 646242/2279011 [00:18<00:41, 39682.54itBuilding dataset for timeline analysis:  29%|███▏       | 650254/2279011 [00:18<00:40, 39811.78itBuilding dataset for timeline analysis:  29%|███▏       | 654267/2279011 [00:18<00:40, 39905.18itBuilding dataset for timeline analysis:  29%|███▏       | 658275/2279011 [00:18<00:40, 39956.57itBuilding dataset for timeline analysis:  29%|███▏       | 662290/2279011 [00:18<00:40, 40013.51itBuilding dataset for timeline analysis:  29%|███▏       | 666292/2279011 [00:18<00:40, 40005.39itBuilding dataset for timeline analysis:  29%|███▏       | 670308/2279011 [00:18<00:40, 40049.89itBuilding dataset for timeline analysis:  30%|███▎       | 674317/2279011 [00:18<00:40, 40060.60itBuilding dataset for timeline analysis:  30%|███▎       | 678336/2279011 [00:18<00:39, 40096.81itBuilding dataset for timeline analysis:  30%|███▎       | 682348/2279011 [00:19<00:39, 40102.77itBuilding dataset for timeline analysis:  30%|███▎       | 686367/2279011 [00:19<00:39, 40127.76itBuilding dataset for timeline analysis:  30%|███▎       | 690380/2279011 [00:19<00:40, 39712.74itBuilding dataset for timeline analysis:  30%|███▎       | 694395/2279011 [00:19<00:39, 39840.42itBuilding dataset for timeline analysis:  31%|███▎       | 698398/2279011 [00:19<00:39, 39896.38itBuilding dataset for timeline analysis:  31%|███▍       | 702406/2279011 [00:19<00:39, 39949.25itBuilding dataset for timeline analysis:  31%|███▍       | 706417/2279011 [00:19<00:39, 39996.39itBuilding dataset for timeline analysis:  31%|███▍       | 710434/2279011 [00:19<00:39, 40047.87itBuilding dataset for timeline analysis:  31%|███▍       | 714448/2279011 [00:19<00:39, 40074.31itBuilding dataset for timeline analysis:  32%|███▍       | 718463/2279011 [00:19<00:38, 40096.35itBuilding dataset for timeline analysis:  32%|███▍       | 722473/2279011 [00:20<00:38, 40084.56itBuilding dataset for timeline analysis:  32%|███▌       | 726488/2279011 [00:20<00:38, 40103.62itBuilding dataset for timeline analysis:  32%|███▌       | 730499/2279011 [00:20<00:38, 40101.27itBuilding dataset for timeline analysis:  32%|███▌       | 734520/2279011 [00:20<00:38, 40133.23itBuilding dataset for timeline analysis:  32%|███▌       | 738536/2279011 [00:20<00:38, 40140.29itBuilding dataset for timeline analysis:  33%|███▌       | 742551/2279011 [00:20<00:38, 39917.40itBuilding dataset for timeline analysis:  33%|███▌       | 746544/2279011 [00:20<00:38, 39901.08itBuilding dataset for timeline analysis:  33%|███▌       | 750556/2279011 [00:20<00:38, 39965.76itBuilding dataset for timeline analysis:  33%|███▋       | 754564/2279011 [00:20<00:38, 39997.88itBuilding dataset for timeline analysis:  33%|███▋       | 758564/2279011 [00:20<00:38, 39601.38itBuilding dataset for timeline analysis:  33%|███▋       | 762574/2279011 [00:21<00:38, 39747.65itBuilding dataset for timeline analysis:  34%|███▋       | 766581/2279011 [00:21<00:37, 39842.73itBuilding dataset for timeline analysis:  34%|███▋       | 770582/2279011 [00:21<00:37, 39891.30itBuilding dataset for timeline analysis:  34%|███▋       | 774600/2279011 [00:21<00:37, 39975.05itBuilding dataset for timeline analysis:  34%|███▊       | 778613/2279011 [00:21<00:37, 40020.42itBuilding dataset for timeline analysis:  34%|███▊       | 782619/2279011 [00:21<00:37, 40031.63itBuilding dataset for timeline analysis:  35%|███▊       | 786623/2279011 [00:21<00:37, 40021.08itBuilding dataset for timeline analysis:  35%|███▊       | 790635/2279011 [00:21<00:37, 40049.83itBuilding dataset for timeline analysis:  35%|███▊       | 794641/2279011 [00:21<00:37, 40020.48itBuilding dataset for timeline analysis:  35%|███▊       | 798645/2279011 [00:21<00:36, 40023.94itBuilding dataset for timeline analysis:  35%|███▊       | 802648/2279011 [00:22<00:36, 40013.27itBuilding dataset for timeline analysis:  35%|███▉       | 806650/2279011 [00:22<00:36, 40010.47itBuilding dataset for timeline analysis:  36%|███▉       | 810652/2279011 [00:22<00:36, 40009.36itBuilding dataset for timeline analysis:  36%|███▉       | 814654/2279011 [00:22<00:36, 40011.79itBuilding dataset for timeline analysis:  36%|███▉       | 818656/2279011 [00:22<00:36, 40008.14itBuilding dataset for timeline analysis:  36%|███▉       | 822657/2279011 [00:22<00:36, 40003.30itBuilding dataset for timeline analysis:  36%|███▉       | 826658/2279011 [00:22<00:36, 39990.83itBuilding dataset for timeline analysis:  36%|████       | 830658/2279011 [00:22<00:36, 39579.49itBuilding dataset for timeline analysis:  37%|████       | 834630/2279011 [00:22<00:36, 39458.13itBuilding dataset for timeline analysis:  37%|████       | 838610/2279011 [00:22<00:36, 39559.24itBuilding dataset for timeline analysis:  37%|████       | 842593/2279011 [00:23<00:36, 39639.33itBuilding dataset for timeline analysis:  37%|████       | 846583/2279011 [00:23<00:36, 39716.01itBuilding dataset for timeline analysis:  37%|████       | 850568/2279011 [00:23<00:35, 39753.78itBuilding dataset for timeline analysis:  37%|████       | 854562/2279011 [00:23<00:35, 39808.46itBuilding dataset for timeline analysis:  38%|████▏      | 858556/2279011 [00:23<00:35, 39846.17itBuilding dataset for timeline analysis:  38%|████▏      | 862544/2279011 [00:23<00:35, 39854.95itBuilding dataset for timeline analysis:  38%|████▏      | 866530/2279011 [00:23<00:35, 39850.70itBuilding dataset for timeline analysis:  38%|████▏      | 870526/2279011 [00:23<00:35, 39881.91itBuilding dataset for timeline analysis:  38%|████▏      | 874517/2279011 [00:23<00:35, 39888.09itBuilding dataset for timeline analysis:  39%|████▏      | 878519/2279011 [00:23<00:35, 39926.15itBuilding dataset for timeline analysis:  39%|████▎      | 882512/2279011 [00:24<00:34, 39919.29itBuilding dataset for timeline analysis:  39%|████▎      | 886511/2279011 [00:24<00:34, 39939.74itBuilding dataset for timeline analysis:  39%|████▎      | 890511/2279011 [00:24<00:34, 39956.42itBuilding dataset for timeline analysis:  39%|████▎      | 894511/2279011 [00:24<00:34, 39968.08itBuilding dataset for timeline analysis:  39%|████▎      | 898508/2279011 [00:24<00:34, 39957.46itBuilding dataset for timeline analysis:  40%|████▎      | 902512/2279011 [00:24<00:34, 39979.86itBuilding dataset for timeline analysis:  40%|████▍      | 906510/2279011 [00:24<00:34, 39975.37itBuilding dataset for timeline analysis:  40%|████▍      | 910508/2279011 [00:24<00:34, 39955.20itBuilding dataset for timeline analysis:  40%|████▍      | 914504/2279011 [00:24<00:34, 39946.08itBuilding dataset for timeline analysis:  40%|████▍      | 918499/2279011 [00:24<00:34, 39921.64itBuilding dataset for timeline analysis:  40%|████▍      | 922492/2279011 [00:25<00:34, 39887.53itBuilding dataset for timeline analysis:  41%|████▍      | 926486/2279011 [00:25<00:33, 39901.47itBuilding dataset for timeline analysis:  41%|████▍      | 930477/2279011 [00:25<00:33, 39879.87itBuilding dataset for timeline analysis:  41%|████▌      | 934465/2279011 [00:25<00:34, 39195.17itBuilding dataset for timeline analysis:  41%|████▌      | 938428/2279011 [00:25<00:34, 39323.46itBuilding dataset for timeline analysis:  41%|████▌      | 942363/2279011 [00:25<00:34, 38851.69itBuilding dataset for timeline analysis:  42%|████▌      | 946322/2279011 [00:25<00:34, 39069.44itBuilding dataset for timeline analysis:  42%|████▌      | 950300/2279011 [00:25<00:33, 39279.41itBuilding dataset for timeline analysis:  42%|████▌      | 954289/2279011 [00:25<00:33, 39458.70itBuilding dataset for timeline analysis:  42%|████▋      | 958263/2279011 [00:25<00:33, 39540.78itBuilding dataset for timeline analysis:  42%|████▋      | 962235/2279011 [00:26<00:33, 39592.89itBuilding dataset for timeline analysis:  42%|████▋      | 966210/2279011 [00:26<00:33, 39638.58itBuilding dataset for timeline analysis:  43%|████▋      | 970190/2279011 [00:26<00:32, 39686.00itBuilding dataset for timeline analysis:  43%|████▋      | 974169/2279011 [00:26<00:32, 39716.74itBuilding dataset for timeline analysis:  43%|████▋      | 978151/2279011 [00:26<00:32, 39747.02itBuilding dataset for timeline analysis:  43%|████▋      | 982134/2279011 [00:26<00:32, 39769.69itBuilding dataset for timeline analysis:  43%|████▊      | 986112/2279011 [00:26<00:32, 39758.24itBuilding dataset for timeline analysis:  43%|████▊      | 990089/2279011 [00:26<00:32, 39759.11itBuilding dataset for timeline analysis:  44%|████▊      | 994065/2279011 [00:26<00:32, 39753.05itBuilding dataset for timeline analysis:  44%|████▊      | 998041/2279011 [00:26<00:32, 39750.80itBuilding dataset for timeline analysis:  44%|████▍     | 1002017/2279011 [00:27<00:32, 39730.81itBuilding dataset for timeline analysis:  44%|████▍     | 1005991/2279011 [00:27<00:32, 39728.92itBuilding dataset for timeline analysis:  44%|████▍     | 1009964/2279011 [00:27<00:31, 39714.49itBuilding dataset for timeline analysis:  44%|████▍     | 1013936/2279011 [00:27<00:31, 39712.12itBuilding dataset for timeline analysis:  45%|████▍     | 1017908/2279011 [00:27<00:31, 39711.74itBuilding dataset for timeline analysis:  45%|████▍     | 1021880/2279011 [00:27<00:31, 39696.83itBuilding dataset for timeline analysis:  45%|████▌     | 1025850/2279011 [00:27<00:31, 39686.45itBuilding dataset for timeline analysis:  45%|████▌     | 1029820/2279011 [00:27<00:31, 39688.54itBuilding dataset for timeline analysis:  45%|████▌     | 1033789/2279011 [00:27<00:31, 39678.60itBuilding dataset for timeline analysis:  46%|████▌     | 1037761/2279011 [00:27<00:31, 39688.45itBuilding dataset for timeline analysis:  46%|████▌     | 1041730/2279011 [00:28<00:31, 39668.19itBuilding dataset for timeline analysis:  46%|████▌     | 1045699/2279011 [00:28<00:31, 39672.13itBuilding dataset for timeline analysis:  46%|████▌     | 1049669/2279011 [00:28<00:30, 39678.17itBuilding dataset for timeline analysis:  46%|████▌     | 1053643/2279011 [00:28<00:30, 39694.63itBuilding dataset for timeline analysis:  46%|████▋     | 1057613/2279011 [00:28<00:30, 39681.10itBuilding dataset for timeline analysis:  47%|████▋     | 1061582/2279011 [00:28<00:30, 39677.37itBuilding dataset for timeline analysis:  47%|████▋     | 1065550/2279011 [00:28<00:30, 39652.77itBuilding dataset for timeline analysis:  47%|████▋     | 1069521/2279011 [00:28<00:30, 39667.67itBuilding dataset for timeline analysis:  47%|████▋     | 1073488/2279011 [00:28<00:30, 39654.69itBuilding dataset for timeline analysis:  47%|████▋     | 1077454/2279011 [00:28<00:30, 39650.00itBuilding dataset for timeline analysis:  47%|████▋     | 1081420/2279011 [00:29<00:30, 39645.61itBuilding dataset for timeline analysis:  48%|████▊     | 1085391/2279011 [00:29<00:30, 39663.97itBuilding dataset for timeline analysis:  48%|████▊     | 1089360/2279011 [00:29<00:29, 39669.97itBuilding dataset for timeline analysis:  48%|████▊     | 1093327/2279011 [00:29<00:29, 39658.99itBuilding dataset for timeline analysis:  48%|████▊     | 1097293/2279011 [00:29<00:29, 39610.11itBuilding dataset for timeline analysis:  48%|████▊     | 1101255/2279011 [00:29<00:29, 39598.32itBuilding dataset for timeline analysis:  48%|████▊     | 1105215/2279011 [00:29<00:29, 39589.95itBuilding dataset for timeline analysis:  49%|████▊     | 1109176/2279011 [00:29<00:29, 39595.04itBuilding dataset for timeline analysis:  49%|████▉     | 1113137/2279011 [00:29<00:29, 39597.10itBuilding dataset for timeline analysis:  49%|████▉     | 1117103/2279011 [00:29<00:29, 39614.33itBuilding dataset for timeline analysis:  49%|████▉     | 1121065/2279011 [00:30<00:29, 39597.30itBuilding dataset for timeline analysis:  49%|████▉     | 1125031/2279011 [00:30<00:29, 39613.82itBuilding dataset for timeline analysis:  50%|████▉     | 1128999/2279011 [00:30<00:29, 39631.83itBuilding dataset for timeline analysis:  50%|████▉     | 1132973/2279011 [00:30<00:28, 39658.27itBuilding dataset for timeline analysis:  50%|████▉     | 1136942/2279011 [00:30<00:28, 39665.76itBuilding dataset for timeline analysis:  50%|█████     | 1140913/2279011 [00:30<00:28, 39677.67itBuilding dataset for timeline analysis:  50%|█████     | 1144881/2279011 [00:30<00:28, 39656.09itBuilding dataset for timeline analysis:  50%|█████     | 1148847/2279011 [00:30<00:28, 39652.80itBuilding dataset for timeline analysis:  51%|█████     | 1152813/2279011 [00:30<00:28, 39637.37itBuilding dataset for timeline analysis:  51%|█████     | 1156777/2279011 [00:30<00:28, 39625.06itBuilding dataset for timeline analysis:  51%|█████     | 1160740/2279011 [00:31<00:28, 39594.77itBuilding dataset for timeline analysis:  51%|█████     | 1164702/2279011 [00:31<00:28, 39601.83itBuilding dataset for timeline analysis:  51%|█████▏    | 1168663/2279011 [00:31<00:28, 39563.63itBuilding dataset for timeline analysis:  51%|█████▏    | 1172622/2279011 [00:31<00:27, 39568.97itBuilding dataset for timeline analysis:  52%|█████▏    | 1176579/2279011 [00:31<00:27, 39547.36itBuilding dataset for timeline analysis:  52%|█████▏    | 1180534/2279011 [00:31<00:27, 39531.02itBuilding dataset for timeline analysis:  52%|█████▏    | 1184488/2279011 [00:31<00:27, 39492.49itBuilding dataset for timeline analysis:  52%|█████▏    | 1188438/2279011 [00:31<00:27, 39028.43itBuilding dataset for timeline analysis:  52%|█████▏    | 1192367/2279011 [00:31<00:27, 39105.74itBuilding dataset for timeline analysis:  52%|█████▏    | 1196310/2279011 [00:31<00:27, 39201.39itBuilding dataset for timeline analysis:  53%|█████▎    | 1200247/2279011 [00:32<00:27, 39249.32itBuilding dataset for timeline analysis:  53%|█████▎    | 1204193/2279011 [00:32<00:27, 39310.68itBuilding dataset for timeline analysis:  53%|█████▎    | 1208135/2279011 [00:32<00:27, 39342.40itBuilding dataset for timeline analysis:  53%|█████▎    | 1212070/2279011 [00:32<00:27, 39308.92itBuilding dataset for timeline analysis:  53%|█████▎    | 1216002/2279011 [00:32<00:27, 39296.23itBuilding dataset for timeline analysis:  54%|█████▎    | 1219932/2279011 [00:32<00:27, 38855.31itBuilding dataset for timeline analysis:  54%|█████▎    | 1223819/2279011 [00:32<00:28, 37408.33itBuilding dataset for timeline analysis:  54%|█████▍    | 1227729/2279011 [00:32<00:27, 37868.52itBuilding dataset for timeline analysis:  54%|█████▍    | 1231526/2279011 [00:32<00:27, 37824.27itBuilding dataset for timeline analysis:  54%|█████▍    | 1235315/2279011 [00:32<00:27, 37751.39itBuilding dataset for timeline analysis:  54%|█████▍    | 1239244/2279011 [00:33<00:27, 38203.95itBuilding dataset for timeline analysis:  55%|█████▍    | 1243069/2279011 [00:33<00:27, 38054.80itBuilding dataset for timeline analysis:  55%|█████▍    | 1246898/2279011 [00:33<00:27, 37948.50itBuilding dataset for timeline analysis:  55%|█████▍    | 1250839/2279011 [00:33<00:26, 38379.91itBuilding dataset for timeline analysis:  55%|█████▌    | 1254679/2279011 [00:33<00:26, 38192.63itBuilding dataset for timeline analysis:  55%|█████▌    | 1258500/2279011 [00:33<00:26, 38033.38itBuilding dataset for timeline analysis:  55%|█████▌    | 1262432/2279011 [00:33<00:26, 38414.82itBuilding dataset for timeline analysis:  56%|█████▌    | 1266275/2279011 [00:33<00:26, 38181.35itBuilding dataset for timeline analysis:  56%|█████▌    | 1270103/2279011 [00:33<00:26, 38021.55itBuilding dataset for timeline analysis:  56%|█████▌    | 1274037/2279011 [00:34<00:26, 38410.75itBuilding dataset for timeline analysis:  56%|█████▌    | 1277879/2279011 [00:34<00:26, 38189.40itBuilding dataset for timeline analysis:  56%|█████▌    | 1281705/2279011 [00:34<00:26, 38045.80itBuilding dataset for timeline analysis:  56%|█████▋    | 1285637/2279011 [00:34<00:25, 38422.34itBuilding dataset for timeline analysis:  57%|█████▋    | 1289480/2279011 [00:34<00:25, 38221.37itBuilding dataset for timeline analysis:  57%|█████▋    | 1293307/2279011 [00:34<00:25, 38062.40itBuilding dataset for timeline analysis:  57%|█████▋    | 1297240/2279011 [00:34<00:25, 38438.44itBuilding dataset for timeline analysis:  57%|█████▋    | 1301085/2279011 [00:34<00:25, 38212.86itBuilding dataset for timeline analysis:  57%|█████▋    | 1304909/2279011 [00:34<00:25, 38063.64itBuilding dataset for timeline analysis:  57%|█████▋    | 1308842/2279011 [00:34<00:25, 38438.87itBuilding dataset for timeline analysis:  58%|█████▊    | 1312687/2279011 [00:35<00:25, 38216.36itBuilding dataset for timeline analysis:  58%|█████▊    | 1316511/2279011 [00:35<00:25, 38052.61itBuilding dataset for timeline analysis:  58%|█████▊    | 1320440/2279011 [00:35<00:24, 38419.18itBuilding dataset for timeline analysis:  58%|█████▊    | 1324283/2279011 [00:35<00:24, 38193.09itBuilding dataset for timeline analysis:  58%|█████▊    | 1328113/2279011 [00:35<00:24, 38042.82itBuilding dataset for timeline analysis:  58%|█████▊    | 1332036/2279011 [00:35<00:24, 38394.92itBuilding dataset for timeline analysis:  59%|█████▊    | 1335877/2279011 [00:35<00:24, 38181.83itBuilding dataset for timeline analysis:  59%|█████▉    | 1339696/2279011 [00:35<00:24, 37875.97itBuilding dataset for timeline analysis:  59%|█████▉    | 1343485/2279011 [00:35<00:24, 37773.12itBuilding dataset for timeline analysis:  59%|█████▉    | 1347282/2279011 [00:35<00:24, 37677.33itBuilding dataset for timeline analysis:  59%|█████▉    | 1351208/2279011 [00:36<00:24, 38146.43itBuilding dataset for timeline analysis:  59%|█████▉    | 1355024/2279011 [00:36<00:24, 37982.98itBuilding dataset for timeline analysis:  60%|█████▉    | 1358884/2279011 [00:36<00:24, 37897.24itBuilding dataset for timeline analysis:  60%|█████▉    | 1362811/2279011 [00:36<00:23, 38303.27itBuilding dataset for timeline analysis:  60%|█████▉    | 1366643/2279011 [00:36<00:23, 38119.85itBuilding dataset for timeline analysis:  60%|██████    | 1370486/2279011 [00:36<00:23, 37974.88itBuilding dataset for timeline analysis:  60%|██████    | 1374406/2279011 [00:36<00:23, 38336.08itBuilding dataset for timeline analysis:  60%|██████    | 1378241/2279011 [00:36<00:23, 38138.12itBuilding dataset for timeline analysis:  61%|██████    | 1382088/2279011 [00:36<00:23, 38033.49itBuilding dataset for timeline analysis:  61%|██████    | 1386018/2279011 [00:36<00:23, 38409.03itBuilding dataset for timeline analysis:  61%|██████    | 1389860/2279011 [00:37<00:23, 38189.64itBuilding dataset for timeline analysis:  61%|██████    | 1393690/2279011 [00:37<00:23, 38014.62itBuilding dataset for timeline analysis:  61%|██████▏   | 1397619/2279011 [00:37<00:22, 38391.00itBuilding dataset for timeline analysis:  61%|██████▏   | 1401459/2279011 [00:37<00:22, 38180.84itBuilding dataset for timeline analysis:  62%|██████▏   | 1405292/2279011 [00:37<00:22, 38043.86itBuilding dataset for timeline analysis:  62%|██████▏   | 1409218/2279011 [00:37<00:22, 38404.22itBuilding dataset for timeline analysis:  62%|██████▏   | 1413060/2279011 [00:37<00:22, 38193.62itBuilding dataset for timeline analysis:  62%|██████▏   | 1416894/2279011 [00:37<00:22, 38041.68itBuilding dataset for timeline analysis:  62%|██████▏   | 1420824/2279011 [00:37<00:22, 38414.55itBuilding dataset for timeline analysis:  63%|██████▎   | 1424667/2279011 [00:37<00:22, 38188.64itBuilding dataset for timeline analysis:  63%|██████▎   | 1428497/2279011 [00:38<00:22, 38040.18itBuilding dataset for timeline analysis:  63%|██████▎   | 1432429/2279011 [00:38<00:22, 38419.66itBuilding dataset for timeline analysis:  63%|██████▎   | 1436272/2279011 [00:38<00:22, 38219.87itBuilding dataset for timeline analysis:  63%|██████▎   | 1440098/2279011 [00:38<00:22, 38037.23itBuilding dataset for timeline analysis:  63%|██████▎   | 1444030/2279011 [00:38<00:21, 38416.47itBuilding dataset for timeline analysis:  64%|██████▎   | 1447873/2279011 [00:38<00:21, 38170.90itBuilding dataset for timeline analysis:  64%|██████▎   | 1451701/2279011 [00:38<00:21, 38012.25itBuilding dataset for timeline analysis:  64%|██████▍   | 1455629/2279011 [00:38<00:21, 38387.32itBuilding dataset for timeline analysis:  64%|██████▍   | 1459469/2279011 [00:38<00:21, 38183.70itBuilding dataset for timeline analysis:  64%|██████▍   | 1463303/2279011 [00:38<00:21, 38023.79itBuilding dataset for timeline analysis:  64%|██████▍   | 1467237/2279011 [00:39<00:21, 38412.83itBuilding dataset for timeline analysis:  65%|██████▍   | 1471080/2279011 [00:39<00:21, 38189.83itBuilding dataset for timeline analysis:  65%|██████▍   | 1474905/2279011 [00:39<00:21, 38029.61itBuilding dataset for timeline analysis:  65%|██████▍   | 1478832/2279011 [00:39<00:20, 38396.67itBuilding dataset for timeline analysis:  65%|██████▌   | 1482673/2279011 [00:39<00:20, 38172.97itBuilding dataset for timeline analysis:  65%|██████▌   | 1486507/2279011 [00:39<00:20, 37994.62itBuilding dataset for timeline analysis:  65%|██████▌   | 1490440/2279011 [00:39<00:20, 38389.60itBuilding dataset for timeline analysis:  66%|██████▌   | 1494280/2279011 [00:39<00:20, 38168.06itBuilding dataset for timeline analysis:  66%|██████▌   | 1498109/2279011 [00:39<00:20, 38003.38itBuilding dataset for timeline analysis:  66%|██████▌   | 1502035/2279011 [00:39<00:20, 38375.30itBuilding dataset for timeline analysis:  66%|██████▌   | 1505874/2279011 [00:40<00:20, 38160.99itBuilding dataset for timeline analysis:  66%|██████▌   | 1509691/2279011 [00:40<00:20, 37824.74itBuilding dataset for timeline analysis:  66%|██████▋   | 1513475/2279011 [00:40<00:20, 37712.82itBuilding dataset for timeline analysis:  67%|██████▋   | 1517278/2279011 [00:40<00:20, 37645.00itBuilding dataset for timeline analysis:  67%|██████▋   | 1521202/2279011 [00:40<00:19, 38115.84itBuilding dataset for timeline analysis:  67%|██████▋   | 1525015/2279011 [00:40<00:19, 37928.07itBuilding dataset for timeline analysis:  67%|██████▋   | 1528880/2279011 [00:40<00:19, 37866.25itBuilding dataset for timeline analysis:  67%|██████▋   | 1532801/2279011 [00:40<00:19, 38263.85itBuilding dataset for timeline analysis:  67%|██████▋   | 1536629/2279011 [00:40<00:19, 38070.43itBuilding dataset for timeline analysis:  68%|██████▊   | 1540482/2279011 [00:40<00:19, 37943.76itBuilding dataset for timeline analysis:  68%|██████▊   | 1544407/2279011 [00:41<00:19, 38329.72itBuilding dataset for timeline analysis:  68%|██████▊   | 1548241/2279011 [00:41<00:19, 38121.36itBuilding dataset for timeline analysis:  68%|██████▊   | 1552084/2279011 [00:41<00:19, 37986.66itBuilding dataset for timeline analysis:  68%|██████▊   | 1556009/2279011 [00:41<00:18, 38360.65itBuilding dataset for timeline analysis:  68%|██████▊   | 1559846/2279011 [00:41<00:18, 38150.99itBuilding dataset for timeline analysis:  69%|██████▊   | 1563686/2279011 [00:41<00:18, 37963.03itBuilding dataset for timeline analysis:  69%|██████▉   | 1567619/2279011 [00:41<00:18, 38367.66itBuilding dataset for timeline analysis:  69%|██████▉   | 1571457/2279011 [00:41<00:18, 38138.44itBuilding dataset for timeline analysis:  69%|██████▉   | 1575288/2279011 [00:41<00:18, 37972.51itBuilding dataset for timeline analysis:  69%|██████▉   | 1579212/2279011 [00:42<00:18, 38346.48itBuilding dataset for timeline analysis:  69%|██████▉   | 1583048/2279011 [00:42<00:18, 38140.95itBuilding dataset for timeline analysis:  70%|██████▉   | 1586890/2279011 [00:42<00:18, 37999.10itBuilding dataset for timeline analysis:  70%|██████▉   | 1590820/2279011 [00:42<00:17, 38383.25itBuilding dataset for timeline analysis:  70%|██████▉   | 1594660/2279011 [00:42<00:17, 38154.35itBuilding dataset for timeline analysis:  70%|███████   | 1598492/2279011 [00:42<00:17, 38004.66itBuilding dataset for timeline analysis:  70%|███████   | 1602409/2279011 [00:42<00:17, 38348.80itBuilding dataset for timeline analysis:  70%|███████   | 1606245/2279011 [00:42<00:17, 38135.47itBuilding dataset for timeline analysis:  71%|███████   | 1610094/2279011 [00:42<00:17, 37983.93itBuilding dataset for timeline analysis:  71%|███████   | 1614013/2279011 [00:42<00:17, 38340.60itBuilding dataset for timeline analysis:  71%|███████   | 1617848/2279011 [00:43<00:17, 38120.03itBuilding dataset for timeline analysis:  71%|███████   | 1621696/2279011 [00:43<00:17, 37979.33itBuilding dataset for timeline analysis:  71%|███████▏  | 1625611/2279011 [00:43<00:17, 38326.01itBuilding dataset for timeline analysis:  71%|███████▏  | 1629445/2279011 [00:43<00:17, 38126.75itBuilding dataset for timeline analysis:  72%|███████▏  | 1633299/2279011 [00:43<00:17, 37966.47itBuilding dataset for timeline analysis:  72%|███████▏  | 1637226/2279011 [00:43<00:16, 38351.52itBuilding dataset for timeline analysis:  72%|███████▏  | 1641063/2279011 [00:43<00:16, 38088.06itBuilding dataset for timeline analysis:  72%|███████▏  | 1644901/2279011 [00:43<00:16, 37944.82itBuilding dataset for timeline analysis:  72%|███████▏  | 1648815/2279011 [00:43<00:16, 38298.62itBuilding dataset for timeline analysis:  73%|███████▎  | 1652646/2279011 [00:43<00:16, 38092.87itBuilding dataset for timeline analysis:  73%|███████▎  | 1656503/2279011 [00:44<00:16, 37952.64itBuilding dataset for timeline analysis:  73%|███████▎  | 1660425/2279011 [00:44<00:16, 38327.64itBuilding dataset for timeline analysis:  73%|███████▎  | 1664259/2279011 [00:44<00:16, 38098.23itBuilding dataset for timeline analysis:  73%|███████▎  | 1668105/2279011 [00:44<00:16, 37964.75itBuilding dataset for timeline analysis:  73%|███████▎  | 1672022/2279011 [00:44<00:15, 38321.66itBuilding dataset for timeline analysis:  74%|███████▎  | 1675855/2279011 [00:44<00:15, 38106.17itBuilding dataset for timeline analysis:  74%|███████▎  | 1679707/2279011 [00:44<00:15, 37955.83itBuilding dataset for timeline analysis:  74%|███████▍  | 1683626/2279011 [00:44<00:15, 38320.27itBuilding dataset for timeline analysis:  74%|███████▍  | 1687459/2279011 [00:44<00:15, 38091.11itBuilding dataset for timeline analysis:  74%|███████▍  | 1691309/2279011 [00:44<00:15, 37947.30itBuilding dataset for timeline analysis:  74%|███████▍  | 1695105/2279011 [00:45<00:15, 37585.86itBuilding dataset for timeline analysis:  75%|███████▍  | 1698876/2279011 [00:45<00:15, 37528.38itBuilding dataset for timeline analysis:  75%|███████▍  | 1702789/2279011 [00:45<00:15, 38001.25itBuilding dataset for timeline analysis:  75%|███████▍  | 1706591/2279011 [00:45<00:15, 37823.56itBuilding dataset for timeline analysis:  75%|███████▌  | 1710477/2279011 [00:45<00:14, 38123.05itBuilding dataset for timeline analysis:  75%|███████▌  | 1714291/2279011 [00:45<00:14, 37991.87itBuilding dataset for timeline analysis:  75%|███████▌  | 1718091/2279011 [00:45<00:14, 37822.77itBuilding dataset for timeline analysis:  76%|███████▌  | 1722007/2279011 [00:45<00:14, 38218.69itBuilding dataset for timeline analysis:  76%|███████▌  | 1725830/2279011 [00:45<00:14, 37998.05itBuilding dataset for timeline analysis:  76%|███████▌  | 1729646/2279011 [00:45<00:14, 37832.77itBuilding dataset for timeline analysis:  76%|███████▌  | 1733556/2279011 [00:46<00:14, 38208.11itBuilding dataset for timeline analysis:  76%|███████▌  | 1737378/2279011 [00:46<00:14, 37986.02itBuilding dataset for timeline analysis:  76%|███████▋  | 1741248/2279011 [00:46<00:14, 37874.68itBuilding dataset for timeline analysis:  77%|███████▋  | 1745164/2279011 [00:46<00:13, 38254.40itBuilding dataset for timeline analysis:  77%|███████▋  | 1748991/2279011 [00:46<00:13, 38031.86itBuilding dataset for timeline analysis:  77%|███████▋  | 1752851/2279011 [00:46<00:13, 37911.14itBuilding dataset for timeline analysis:  77%|███████▋  | 1756751/2279011 [00:46<00:13, 38233.02itBuilding dataset for timeline analysis:  77%|███████▋  | 1760576/2279011 [00:46<00:13, 38031.99itBuilding dataset for timeline analysis:  77%|███████▋  | 1764453/2279011 [00:46<00:13, 37924.28itBuilding dataset for timeline analysis:  78%|███████▊  | 1768371/2279011 [00:46<00:13, 38294.19itBuilding dataset for timeline analysis:  78%|███████▊  | 1772202/2279011 [00:47<00:13, 38039.63itBuilding dataset for timeline analysis:  78%|███████▊  | 1776055/2279011 [00:47<00:13, 37903.67itBuilding dataset for timeline analysis:  78%|███████▊  | 1779970/2279011 [00:47<00:13, 38270.44itBuilding dataset for timeline analysis:  78%|███████▊  | 1783798/2279011 [00:47<00:13, 37902.70itBuilding dataset for timeline analysis:  78%|███████▊  | 1787657/2279011 [00:47<00:13, 37769.30itBuilding dataset for timeline analysis:  79%|███████▊  | 1791567/2279011 [00:47<00:12, 38159.83itBuilding dataset for timeline analysis:  79%|███████▉  | 1795385/2279011 [00:47<00:12, 37951.17itBuilding dataset for timeline analysis:  79%|███████▉  | 1799259/2279011 [00:47<00:12, 37861.26itBuilding dataset for timeline analysis:  79%|███████▉  | 1803168/2279011 [00:47<00:12, 38224.04itBuilding dataset for timeline analysis:  79%|███████▉  | 1806992/2279011 [00:47<00:12, 38013.32itBuilding dataset for timeline analysis:  79%|███████▉  | 1810861/2279011 [00:48<00:12, 37876.07itBuilding dataset for timeline analysis:  80%|███████▉  | 1814776/2279011 [00:48<00:12, 38251.60itBuilding dataset for timeline analysis:  80%|███████▉  | 1818603/2279011 [00:48<00:12, 37998.01itBuilding dataset for timeline analysis:  80%|███████▉  | 1822463/2279011 [00:48<00:12, 37881.79itBuilding dataset for timeline analysis:  80%|████████  | 1826375/2279011 [00:48<00:11, 38246.95itBuilding dataset for timeline analysis:  80%|████████  | 1830201/2279011 [00:48<00:11, 38021.91itBuilding dataset for timeline analysis:  80%|████████  | 1834065/2279011 [00:48<00:11, 37890.24itBuilding dataset for timeline analysis:  81%|████████  | 1837974/2279011 [00:48<00:11, 38243.31itBuilding dataset for timeline analysis:  81%|████████  | 1841800/2279011 [00:48<00:11, 38006.82itBuilding dataset for timeline analysis:  81%|████████  | 1845667/2279011 [00:49<00:11, 37890.51itBuilding dataset for timeline analysis:  81%|████████  | 1849572/2279011 [00:49<00:11, 38231.52itBuilding dataset for timeline analysis:  81%|████████▏ | 1853397/2279011 [00:49<00:11, 37995.60itBuilding dataset for timeline analysis:  81%|████████▏ | 1857270/2279011 [00:49<00:11, 37872.60itBuilding dataset for timeline analysis:  82%|████████▏ | 1861182/2279011 [00:49<00:10, 38239.40itBuilding dataset for timeline analysis:  82%|████████▏ | 1865007/2279011 [00:49<00:10, 38007.34itBuilding dataset for timeline analysis:  82%|████████▏ | 1868871/2279011 [00:49<00:10, 37849.61itBuilding dataset for timeline analysis:  82%|████████▏ | 1872764/2279011 [00:49<00:10, 38167.54itBuilding dataset for timeline analysis:  82%|████████▏ | 1876582/2279011 [00:49<00:10, 37955.04itBuilding dataset for timeline analysis:  83%|████████▎ | 1880473/2279011 [00:49<00:10, 38219.25itBuilding dataset for timeline analysis:  83%|████████▎ | 1884296/2279011 [00:50<00:10, 38046.59itBuilding dataset for timeline analysis:  83%|████████▎ | 1888102/2279011 [00:50<00:10, 37838.17itBuilding dataset for timeline analysis:  83%|████████▎ | 1892016/2279011 [00:50<00:10, 38223.56itBuilding dataset for timeline analysis:  83%|████████▎ | 1895840/2279011 [00:50<00:10, 37991.48itBuilding dataset for timeline analysis:  83%|████████▎ | 1899642/2279011 [00:50<00:10, 37806.04itBuilding dataset for timeline analysis:  84%|████████▎ | 1903546/2279011 [00:50<00:09, 38171.06itBuilding dataset for timeline analysis:  84%|████████▎ | 1907364/2279011 [00:50<00:09, 37952.19itBuilding dataset for timeline analysis:  84%|████████▍ | 1911244/2279011 [00:50<00:09, 37847.99itBuilding dataset for timeline analysis:  84%|████████▍ | 1915154/2279011 [00:50<00:09, 38217.01itBuilding dataset for timeline analysis:  84%|████████▍ | 1918977/2279011 [00:50<00:09, 37955.96itBuilding dataset for timeline analysis:  84%|████████▍ | 1922847/2279011 [00:51<00:09, 37846.97itBuilding dataset for timeline analysis:  85%|████████▍ | 1926752/2279011 [00:51<00:09, 38200.90itBuilding dataset for timeline analysis:  85%|████████▍ | 1930574/2279011 [00:51<00:09, 37971.41itBuilding dataset for timeline analysis:  85%|████████▍ | 1934448/2279011 [00:51<00:09, 38195.77itBuilding dataset for timeline analysis:  85%|████████▌ | 1938269/2279011 [00:51<00:08, 38025.95itBuilding dataset for timeline analysis:  85%|████████▌ | 1942073/2279011 [00:51<00:08, 37822.69itBuilding dataset for timeline analysis:  85%|████████▌ | 1945978/2279011 [00:51<00:08, 38186.20itBuilding dataset for timeline analysis:  86%|████████▌ | 1949798/2279011 [00:51<00:08, 37937.98itBuilding dataset for timeline analysis:  86%|████████▌ | 1953617/2279011 [00:51<00:08, 37783.06itBuilding dataset for timeline analysis:  86%|████████▌ | 1957517/2279011 [00:51<00:08, 38143.17itBuilding dataset for timeline analysis:  86%|████████▌ | 1961333/2279011 [00:52<00:08, 37911.59itBuilding dataset for timeline analysis:  86%|████████▌ | 1965218/2279011 [00:52<00:08, 38170.13itBuilding dataset for timeline analysis:  86%|████████▋ | 1969036/2279011 [00:52<00:08, 38003.39itBuilding dataset for timeline analysis:  87%|████████▋ | 1972837/2279011 [00:52<00:08, 37800.22itBuilding dataset for timeline analysis:  87%|████████▋ | 1976742/2279011 [00:52<00:07, 38169.85itBuilding dataset for timeline analysis:  87%|████████▋ | 1980560/2279011 [00:52<00:07, 37933.97itBuilding dataset for timeline analysis:  87%|████████▋ | 1984388/2279011 [00:52<00:07, 37767.48itBuilding dataset for timeline analysis:  87%|████████▋ | 1988287/2279011 [00:52<00:07, 38128.91itBuilding dataset for timeline analysis:  87%|████████▋ | 1992101/2279011 [00:52<00:07, 37912.52itBuilding dataset for timeline analysis:  88%|████████▊ | 1995989/2279011 [00:52<00:07, 38172.05itBuilding dataset for timeline analysis:  88%|████████▊ | 1999807/2279011 [00:53<00:07, 37972.10itBuilding dataset for timeline analysis:  88%|████████▊ | 2003605/2279011 [00:53<00:07, 37770.28itBuilding dataset for timeline analysis:  88%|████████▊ | 2007505/2279011 [00:53<00:07, 38134.98itBuilding dataset for timeline analysis:  88%|████████▊ | 2011320/2279011 [00:53<00:07, 37909.89itBuilding dataset for timeline analysis:  88%|████████▊ | 2015159/2279011 [00:53<00:06, 37776.32itBuilding dataset for timeline analysis:  89%|████████▊ | 2019057/2279011 [00:53<00:06, 38132.27itBuilding dataset for timeline analysis:  89%|████████▉ | 2022872/2279011 [00:53<00:06, 37908.43itBuilding dataset for timeline analysis:  89%|████████▉ | 2026760/2279011 [00:53<00:06, 38160.10itBuilding dataset for timeline analysis:  89%|████████▉ | 2030577/2279011 [00:53<00:06, 37985.32itBuilding dataset for timeline analysis:  89%|████████▉ | 2034377/2279011 [00:53<00:06, 37782.41itBuilding dataset for timeline analysis:  89%|████████▉ | 2038279/2279011 [00:54<00:06, 38148.80itBuilding dataset for timeline analysis:  90%|████████▉ | 2042095/2279011 [00:54<00:06, 37909.91itBuilding dataset for timeline analysis:  90%|████████▉ | 2045930/2279011 [00:54<00:06, 37771.97itBuilding dataset for timeline analysis:  90%|████████▉ | 2049824/2279011 [00:54<00:06, 38117.18itBuilding dataset for timeline analysis:  90%|█████████ | 2053637/2279011 [00:54<00:05, 37912.39itBuilding dataset for timeline analysis:  90%|█████████ | 2057531/2279011 [00:54<00:05, 38165.08itBuilding dataset for timeline analysis:  90%|█████████ | 2061349/2279011 [00:54<00:05, 37982.27itBuilding dataset for timeline analysis:  91%|█████████ | 2065148/2279011 [00:54<00:05, 37761.14itBuilding dataset for timeline analysis:  91%|█████████ | 2069047/2279011 [00:54<00:05, 38124.38itBuilding dataset for timeline analysis:  91%|█████████ | 2072861/2279011 [00:54<00:05, 37894.54itBuilding dataset for timeline analysis:  91%|█████████ | 2076700/2279011 [00:55<00:05, 37757.01itBuilding dataset for timeline analysis:  91%|█████████▏| 2080594/2279011 [00:55<00:05, 38106.19itBuilding dataset for timeline analysis:  91%|█████████▏| 2084406/2279011 [00:55<00:05, 37888.92itBuilding dataset for timeline analysis:  92%|█████████▏| 2088295/2279011 [00:55<00:04, 38185.57itBuilding dataset for timeline analysis:  92%|█████████▏| 2092115/2279011 [00:55<00:04, 37950.87itBuilding dataset for timeline analysis:  92%|█████████▏| 2095911/2279011 [00:55<00:04, 37748.24itBuilding dataset for timeline analysis:  92%|█████████▏| 2099810/2279011 [00:55<00:04, 38115.52itBuilding dataset for timeline analysis:  92%|█████████▏| 2103623/2279011 [00:55<00:04, 37872.94itBuilding dataset for timeline analysis:  92%|█████████▏| 2107471/2279011 [00:55<00:04, 37744.29itBuilding dataset for timeline analysis:  93%|█████████▎| 2111319/2279011 [00:56<00:04, 37960.15itBuilding dataset for timeline analysis:  93%|█████████▎| 2115116/2279011 [00:56<00:04, 37750.87itBuilding dataset for timeline analysis:  93%|█████████▎| 2119013/2279011 [00:56<00:04, 38110.68itBuilding dataset for timeline analysis:  93%|█████████▎| 2122825/2279011 [00:56<00:04, 37890.74itBuilding dataset for timeline analysis:  93%|█████████▎| 2126640/2279011 [00:56<00:04, 37728.73itBuilding dataset for timeline analysis:  93%|█████████▎| 2130543/2279011 [00:56<00:03, 38112.33itBuilding dataset for timeline analysis:  94%|█████████▎| 2134356/2279011 [00:56<00:03, 37875.91itBuilding dataset for timeline analysis:  94%|█████████▍| 2138241/2279011 [00:56<00:03, 38111.57itBuilding dataset for timeline analysis:  94%|█████████▍| 2142053/2279011 [00:56<00:03, 37944.64itBuilding dataset for timeline analysis:  94%|█████████▍| 2145848/2279011 [00:56<00:03, 37752.16itBuilding dataset for timeline analysis:  94%|█████████▍| 2149745/2279011 [00:57<00:03, 38112.88itBuilding dataset for timeline analysis:  94%|█████████▍| 2153557/2279011 [00:57<00:03, 37887.46itBuilding dataset for timeline analysis:  95%|█████████▍| 2157411/2279011 [00:57<00:03, 37755.88itBuilding dataset for timeline analysis:  95%|█████████▍| 2161313/2279011 [00:57<00:03, 38128.49itBuilding dataset for timeline analysis:  95%|█████████▌| 2165127/2279011 [00:57<00:03, 37893.75itBuilding dataset for timeline analysis:  95%|█████████▌| 2169012/2279011 [00:57<00:02, 38143.01itBuilding dataset for timeline analysis:  95%|█████████▌| 2172828/2279011 [00:57<00:02, 37958.70itBuilding dataset for timeline analysis:  96%|█████████▌| 2176625/2279011 [00:57<00:02, 37770.95itBuilding dataset for timeline analysis:  96%|█████████▌| 2180519/2279011 [00:57<00:02, 38117.62itBuilding dataset for timeline analysis:  96%|█████████▌| 2184332/2279011 [00:57<00:02, 37882.19itBuilding dataset for timeline analysis:  96%|█████████▌| 2188181/2279011 [00:58<00:02, 37712.55itBuilding dataset for timeline analysis:  96%|█████████▌| 2192073/2279011 [00:58<00:02, 38068.15itBuilding dataset for timeline analysis:  96%|█████████▋| 2195881/2279011 [00:58<00:02, 37833.74itBuilding dataset for timeline analysis:  97%|█████████▋| 2199778/2279011 [00:58<00:02, 38168.47itBuilding dataset for timeline analysis:  97%|█████████▋| 2203596/2279011 [00:58<00:01, 37910.94itBuilding dataset for timeline analysis:  97%|█████████▋| 2207388/2279011 [00:58<00:01, 37732.46itBuilding dataset for timeline analysis:  97%|█████████▋| 2211270/2279011 [00:58<00:01, 38054.12itBuilding dataset for timeline analysis:  97%|█████████▋| 2215077/2279011 [00:58<00:01, 37838.13itBuilding dataset for timeline analysis:  97%|█████████▋| 2218951/2279011 [00:58<00:01, 38099.60itBuilding dataset for timeline analysis:  98%|█████████▊| 2222762/2279011 [00:58<00:01, 37921.85itBuilding dataset for timeline analysis:  98%|█████████▊| 2226555/2279011 [00:59<00:01, 37711.02itBuilding dataset for timeline analysis:  98%|█████████▊| 2230449/2279011 [00:59<00:01, 38073.69itBuilding dataset for timeline analysis:  98%|█████████▊| 2234258/2279011 [00:59<00:01, 37838.47itBuilding dataset for timeline analysis:  98%|█████████▊| 2238121/2279011 [00:59<00:01, 37726.71itBuilding dataset for timeline analysis:  98%|█████████▊| 2242013/2279011 [00:59<00:00, 38077.88itBuilding dataset for timeline analysis:  99%|█████████▊| 2245822/2279011 [00:59<00:00, 37833.15itBuilding dataset for timeline analysis:  99%|█████████▊| 2249680/2279011 [00:59<00:00, 38054.18itBuilding dataset for timeline analysis:  99%|█████████▉| 2253509/2279011 [00:59<00:00, 38122.77itBuilding dataset for timeline analysis:  99%|█████████▉| 2257350/2279011 [00:59<00:00, 38206.04itBuilding dataset for timeline analysis:  99%|█████████▉| 2261184/2279011 [00:59<00:00, 38243.82itBuilding dataset for timeline analysis:  99%|█████████▉| 2265022/2279011 [01:00<00:00, 38282.72itBuilding dataset for timeline analysis: 100%|█████████▉| 2268856/2279011 [01:00<00:00, 38297.28itBuilding dataset for timeline analysis: 100%|█████████▉| 2272691/2279011 [01:00<00:00, 38311.42itBuilding dataset for timeline analysis: 100%|█████████▉| 2276527/2279011 [01:00<00:00, 38324.78it                                                                                                 [2025-05-19 18:45:28][INFO] Finish timeline analysis
+[2025-05-19 18:45:28][INFO] Start analysis SynchronizeStreamAnalyzer with timeline_event_dataset
+[2025-05-19 18:45:29][INFO] Start analysis OpDispatchAnalyzer with timeline_event_dataset
+[2025-05-19 18:45:29][INFO] Start analysis SyncBNAnalyzer with timeline_event_dataset
+[2025-05-19 18:45:29][INFO] Save suggestion to /home/duanjunwen/ColossalAI/applications/ColossalChat/mstt_advisor_20250519174404.html.
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| N | 类型                   | 描述                                                          | 建议                                                                               |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 1 | 环境变量分析           | 描述并给出最优的环境变量配置建议                              | 1. 请设置最优的环境变量                                                            |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 2 | 慢卡分析               | 集群中的通信有问题，                                          |                                                                                    |
+|   |                        | 因为通信时间的最大差距已经达到                                |                                                                                    |
+|   |                        | 103060.644ms。                                                |                                                                                    |
+|   |                        | 集群中的空闲有问题，                                          |                                                                                    |
+|   |                        | 因为空闲时间的最大差距已经达到                                |                                                                                    |
+|   |                        | 99304.586ms。                                                 |                                                                                    |
+|   |                        |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 3 | 慢链路分析             | RDMA bandwidth(GB/s)：                                        |                                                                                    |
+|   |                        |     平均值是 23.997，                                         |                                                                                    |
+|   |                        |     但最大值是 24.017GB/s ，                                  |                                                                                    |
+|   |                        |     最小值是 23.983GB/s。                                     |                                                                                    |
+|   |                        |     差距为 0.034GB/s。                                        |                                                                                    |
+|   |                        | SDMA bandwidth(GB/s)：                                        |                                                                                    |
+|   |                        |     平均值是 17.935，                                         |                                                                                    |
+|   |                        |     但最大值是 18.663GB/s ，                                  |                                                                                    |
+|   |                        |     最小值是 17.174GB/s。                                     |                                                                                    |
+|   |                        |     差距为 1.49GB/s。                                         |                                                                                    |
+|   |                        |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 4 | Memory Operator Issues | 发现了243个AscendCL@aclMallocMemInner算子，花费55469.200000000004us，这将 | 1. For AscendCL@aclMallocMemInner: 请通过命令'export                               |
+|   |                        | 导致大量的空闲时间。                                          | PYTORCH_NPU_ALLOC_CONF=expandable_segments:True'设置环境变量，然后开始训练任务。   |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 5 | Kernel compare of      | Kernel compare of Rank4 Step0 and Rank0 Step0                 |                                                                                    |
+|   | Rank4 Step0 and Rank0  |                                                               |                                                                                    |
+|   | Step0                  |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 6 | Kernel compare of      | Kernel compare of Rank5 Step0 and Rank1 Step0                 |                                                                                    |
+|   | Rank5 Step0 and Rank1  |                                                               |                                                                                    |
+|   | Step0                  |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 7 | Kernel compare of      | Kernel compare of Rank6 Step0 and Rank2 Step0                 |                                                                                    |
+|   | Rank6 Step0 and Rank2  |                                                               |                                                                                    |
+|   | Step0                  |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 8 | Kernel compare of      | Kernel compare of Rank7 Step0 and Rank3 Step0                 |                                                                                    |
+|   | Rank7 Step0 and Rank3  |                                                               |                                                                                    |
+|   | Step0                  |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 9 | Kernel compare of      | Kernel compare of Rank12 Step0 and Rank8 Step0                |                                                                                    |
+|   | Rank12 Step0 and Rank8 |                                                               |                                                                                    |
+|   | Step0                  |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 1 | Kernel compare of      | Kernel compare of Rank13 Step0 and Rank9 Step0                |                                                                                    |
+| 0 | Rank13 Step0 and Rank9 |                                                               |                                                                                    |
+|   | Step0                  |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 1 | Kernel compare of      | Kernel compare of Rank14 Step0 and Rank10 Step0               |                                                                                    |
+| 1 | Rank14 Step0 and       |                                                               |                                                                                    |
+|   | Rank10 Step0           |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 1 | Kernel compare of      | Kernel compare of Rank15 Step0 and Rank11 Step0               |                                                                                    |
+| 2 | Rank15 Step0 and       |                                                               |                                                                                    |
+|   | Rank11 Step0           |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 1 | 4号卡动态shape算子     | 找到所有是动态shape的算子                                     | 1. 在python脚本入口加入以下代码关闭在线编译：                                      |
+| 3 |                        |                                                               | 'torch_npu.npu.set_compile_mode(jit_compile=False)                                 |
+|   |                        |                                                               |  torch_npu.npu.config.allow_internal_format = False'                               |
+|   |                        |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 1 | 4号卡aicpu算子         | 一些算子和任务执行时间超过了20us，比如：                      | 1. 修改代码避免使用aicpu类算子                                                     |
+| 4 |                        | IndexPut                                                      |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 1 | AIcore频率4号卡        | 对于4号卡，在降频期间发现1个算子，频率降低比例超过了0.05。    | 1. 请检查您的机器温度或最大功率。                                                  |
+| 5 |                        |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 1 | Cube算子性能分析       | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
+| 6 |                        |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 1 | FA算子性能分析         | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
+| 7 |                        |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 1 | 5号卡动态shape算子     | 找到所有是动态shape的算子                                     | 1. 在python脚本入口加入以下代码关闭在线编译：                                      |
+| 8 |                        |                                                               | 'torch_npu.npu.set_compile_mode(jit_compile=False)                                 |
+|   |                        |                                                               |  torch_npu.npu.config.allow_internal_format = False'                               |
+|   |                        |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 1 | 5号卡aicpu算子         | 一些算子和任务执行时间超过了20us，比如：                      | 1. 修改代码避免使用aicpu类算子                                                     |
+| 9 |                        | IndexPut                                                      |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 2 | Cube算子性能分析       | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
+| 0 |                        |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 2 | FA算子性能分析         | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
+| 1 |                        |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 2 | 6号卡动态shape算子     | 找到所有是动态shape的算子                                     | 1. 在python脚本入口加入以下代码关闭在线编译：                                      |
+| 2 |                        |                                                               | 'torch_npu.npu.set_compile_mode(jit_compile=False)                                 |
+|   |                        |                                                               |  torch_npu.npu.config.allow_internal_format = False'                               |
+|   |                        |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 2 | 6号卡aicpu算子         | 一些算子和任务执行时间超过了20us，比如：                      | 1. 修改代码避免使用aicpu类算子                                                     |
+| 3 |                        | IndexPut                                                      |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 2 | Cube算子性能分析       | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
+| 4 |                        |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 2 | FA算子性能分析         | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
+| 5 |                        |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 2 | Vector算子性能分析     | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
+| 6 |                        |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 2 | 7号卡动态shape算子     | 找到所有是动态shape的算子                                     | 1. 在python脚本入口加入以下代码关闭在线编译：                                      |
+| 7 |                        |                                                               | 'torch_npu.npu.set_compile_mode(jit_compile=False)                                 |
+|   |                        |                                                               |  torch_npu.npu.config.allow_internal_format = False'                               |
+|   |                        |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 2 | 7号卡aicpu算子         | 一些算子和任务执行时间超过了20us，比如：                      | 1. 修改代码避免使用aicpu类算子                                                     |
+| 8 |                        | IndexPut                                                      |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 2 | Cube算子性能分析       | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
+| 9 |                        |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 3 | FA算子性能分析         | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
+| 0 |                        |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 3 | 12号卡动态shape算子    | 找到所有是动态shape的算子                                     | 1. 在python脚本入口加入以下代码关闭在线编译：                                      |
+| 1 |                        |                                                               | 'torch_npu.npu.set_compile_mode(jit_compile=False)                                 |
+|   |                        |                                                               |  torch_npu.npu.config.allow_internal_format = False'                               |
+|   |                        |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 3 | 12号卡aicpu算子        | 一些算子和任务执行时间超过了20us，比如：                      | 1. 修改代码避免使用aicpu类算子                                                     |
+| 2 |                        | IndexPut                                                      |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 3 | Cube算子性能分析       | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
+| 3 |                        |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 3 | FA算子性能分析         | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
+| 4 |                        |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 3 | 13号卡动态shape算子    | 找到所有是动态shape的算子                                     | 1. 在python脚本入口加入以下代码关闭在线编译：                                      |
+| 5 |                        |                                                               | 'torch_npu.npu.set_compile_mode(jit_compile=False)                                 |
+|   |                        |                                                               |  torch_npu.npu.config.allow_internal_format = False'                               |
+|   |                        |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 3 | 13号卡aicpu算子        | 一些算子和任务执行时间超过了20us，比如：                      | 1. 修改代码避免使用aicpu类算子                                                     |
+| 6 |                        | IndexPut                                                      |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 3 | Cube算子性能分析       | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
+| 7 |                        |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 3 | FA算子性能分析         | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
+| 8 |                        |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 3 | Vector算子性能分析     | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
+| 9 |                        |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 4 | 14号卡动态shape算子    | 找到所有是动态shape的算子                                     | 1. 在python脚本入口加入以下代码关闭在线编译：                                      |
+| 0 |                        |                                                               | 'torch_npu.npu.set_compile_mode(jit_compile=False)                                 |
+|   |                        |                                                               |  torch_npu.npu.config.allow_internal_format = False'                               |
+|   |                        |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 4 | 14号卡aicpu算子        | 一些算子和任务执行时间超过了20us，比如：                      | 1. 修改代码避免使用aicpu类算子                                                     |
+| 1 |                        | IndexPut                                                      |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 4 | Cube算子性能分析       | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
+| 2 |                        |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 4 | FA算子性能分析         | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
+| 3 |                        |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 4 | 15号卡动态shape算子    | 找到所有是动态shape的算子                                     | 1. 在python脚本入口加入以下代码关闭在线编译：                                      |
+| 4 |                        |                                                               | 'torch_npu.npu.set_compile_mode(jit_compile=False)                                 |
+|   |                        |                                                               |  torch_npu.npu.config.allow_internal_format = False'                               |
+|   |                        |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 4 | 15号卡aicpu算子        | 一些算子和任务执行时间超过了20us，比如：                      | 1. 修改代码避免使用aicpu类算子                                                     |
+| 5 |                        | IndexPut                                                      |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 4 | Cube算子性能分析       | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
+| 6 |                        |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 4 | FA算子性能分析         | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
+| 7 |                        |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 4 | Api compare of Rank6   | Api compare of Rank6 Step0 and Rank11 Step0                   |                                                                                    |
+| 8 | Step0 and Rank11 Step0 |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 4 | 可融合算子分析         | 共检测到181个有融合价值的算子序列，总计端到端耗时665176.641ms， | 1. 发现大量存在host下发瓶颈的算子序列，可能原因是代码中使用了NPU非亲和操作。请先采集开启调用栈数据根据算子索引确定代码位置评估算法实现的亲和性，如无问题可 |
+| 9 |                        | 其中npu时间共13626.007ms，host瓶颈耗时占比0.98，mte耗时占比0.024. | 进行后续可融合性评估                                                               |
+|   |                        |                                                               | 2. 基于可融合算子序列数据，联系开发人员评估算法层面上算子序列是否可融合.           |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 5 | Conjectured Gc         | 在34079031.859us的空闲时间内几乎没有主机任务，这可能是由Python的异常GC引起的 | 1. 内存管理, 实现高效的Python内存管理；不使用时及时释放内存，避免长期占用；避免对象之间的循环引用。 |
+| 0 |                        |                                                               | 2. adjusting the GC threshold, 使用 gc.set_threshold()                             |
+|   |                        |                                                               | 来调整垃圾回收阈值可以延迟垃圾收集，但这是一个临时解决方案。                       |
+|   |                        |                                                               | 3. disable GC, 使用 gc.disable() 来关闭GC，注意这是个临时解决方案。                |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 5 | Slow Dataloader Issues | dataloader加载数据速度较慢，一次迭代花费138000.9us，通常小于10000us。 | 1. 请检查数据目录的磁盘I/O。如果您正在ModelArts中训练模型，请将数据移动到“/cache”或装载更高效的云磁盘以获得更好的I/O。 |
+| 1 |                        |                                                               | 2. 尝试调整dataloader参数'num_workers'。                                           |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+| 5 | 亲和API接口            | 目前运行环境版本为cann-8.0.0和torch-2.1.0，发现有3个api接口可以替换。 | 1. 请根据子表'Affinity training api'替换训练api接口                                |
+| 2 |                        |                                                               |                                                                                    |
++---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
+[2025-05-19 18:45:29][INFO] Save problems details file to /home/duanjunwen/ColossalAI/applications/ColossalChat/log/mstt_advisor_20250519174404.xlsx
\ No newline at end of file
diff --git a/applications/ColossalChat/rl_example.py b/applications/ColossalChat/rl_example.py
index 615d86d8f01b..5e635c79ebef 100644
--- a/applications/ColossalChat/rl_example.py
+++ b/applications/ColossalChat/rl_example.py
@@ -79,7 +79,7 @@
         help="Top p for sampling. Please check the generation arguments documentation for your backend.",
     )
     parser.add_argument("-s", "--system-prompt", type=str, default=None, help="System prompt for data construction.")
-    parser.add_argument("-mnt", "--max-new-tokens", type=int, default=1024 * 4 - 512, help="Max length for generation.")
+    parser.add_argument("-mnt", "--max-new-tokens", type=int, default=1024 * 24 - 512, help="Max length for generation.")
     parser.add_argument("-mpt", "--max-prompt-tokens", type=int, default=512, help="Max length for prompt.")
 
     # GRPO parameters
@@ -223,16 +223,16 @@
         #     "zero_stage": 2,
         # },  # for zero
         plugin_config={
-            "tp_size": 2,
+            "tp_size": 4,
             "pp_size": 2,
             "microbatch_size": max(
                 1, args.train_microbatch_size // 2
             ),  # microbatch size should be set to train_microbatch_size // pp_size
             "zero_stage": 1,
             "max_norm": 1.0,
-            # "sp_size": 4,
-            # "enable_sequence_parallelism":True,
-            # "sequence_parallelism_mode":"ring" # ["split_gather", "ring", "all_to_all"]
+            "sp_size": 4,
+            "enable_sequence_parallelism":True,
+            "sequence_parallelism_mode":"split_gather" # ["split_gather", "ring", "all_to_all"]
         },  # for pp, tp
         inference_backend=args.backend,
         master_addr="localhost",
diff --git a/applications/ColossalChat/tests/test_hybrid.py b/applications/ColossalChat/tests/test_hybrid.py
index ed3e22351761..d66999afd542 100644
--- a/applications/ColossalChat/tests/test_hybrid.py
+++ b/applications/ColossalChat/tests/test_hybrid.py
@@ -4,7 +4,7 @@
 from torch.utils.data import Dataset
 from tqdm import tqdm
 from transformers import AutoTokenizer, Qwen2ForCausalLM
-
+import torch_npu
 import colossalai
 from colossalai.accelerator import get_accelerator
 from colossalai.booster import Booster
@@ -12,12 +12,13 @@
 from colossalai.cluster import DistCoordinator
 from colossalai.nn.optimizer import HybridAdam
 
-BATCH_SIZE = 4
-NUM_EPOCHS = 3
+BATCH_SIZE = 2
+NUM_EPOCHS = 1
 LEARNING_RATE = 2e-5
 GRADIENT_ACCUMULATION_STEPS = 1
 DATA_PATH = "/home/duanjunwen/datasets/math_dataset.jsonl"
-MODEL_PATH = "/home/duanjunwen/models/Qwen/Qwen2.5-14B"
+DATA_PATH = "/home/duanjunwen/datasets/train-alignment_10.jsonl"
+MODEL_PATH = "/home/grpo/models/DeepSeek-R1-Distill-Qwen-7B"
 Device = torch.device("npu" if torch.npu.is_available() else "cpu")
 
 class RandomDataset(Dataset):
@@ -56,18 +57,29 @@ def test_hybrid_qwen():
     coordinator = DistCoordinator()
     tokenizer, model = load_model_and_tokenizer()
     # dataset = RandomDataset(num_samples=100, sequence_length=2304)
-    dataset = RawConversationDataset(tokenizer, DATA_PATH, 1024,  system_prompt="Please reason step by step, and put your final answer within \\boxed{}.")
+    dataset = RawConversationDataset(tokenizer, DATA_PATH, 16 * 1024,  system_prompt="Please reason step by step, and put your final answer within \\boxed{}.")
     # dataloader = DataLoader(dataset, batch_size=BATCH_SIZE, shuffle=True)
 
     optimizer = HybridAdam(model.parameters(), lr=LEARNING_RATE)
+    # plugin = HybridParallelPlugin(
+    #     tp_size=8, 
+    #     pp_size=1, 
+    #     precision="bf16", 
+    #     zero_stage=2, 
+    #     cpu_offload=True,
+    # )
     plugin = HybridParallelPlugin(
-        tp_size=8, 
-        pp_size=1, 
+        tp_size=4, 
+        pp_size=2, 
+        sp_size=2, 
+        enable_sequence_parallelism=True, 
+        sequence_parallelism_mode="split_gather",  
         precision="bf16", 
-        zero_stage=2, 
-        cpu_offload=True,
+        zero_stage=1, 
+        microbatch_size=1, 
+        max_norm= 1.0,
+        enable_flash_attention=True
     )
-    # plugin = HybridParallelPlugin(tp_size=2, pp_size=2, precision="bf16", zero_stage=1, num_microbatches=4, enable_flash_attention=True)
 
     dataloader = plugin.prepare_dataloader(
         dataset=dataset,
@@ -89,25 +101,45 @@ def is_master():
     # train
     #####
     model.train()
-
+    model.gradient_checkpointing = False
+    experimental_config = torch_npu.profiler._ExperimentalConfig(
+        aic_metrics=torch_npu.profiler.AiCMetrics.PipeUtilization,
+        profiler_level=torch_npu.profiler.ProfilerLevel.Level1,
+        l2_cache=False
+    )
+    prof = torch_npu.profiler.profile(
+        activities=[
+            torch_npu.profiler.ProfilerActivity.CPU, 
+            torch_npu.profiler.ProfilerActivity.NPU
+        ],
+        record_shapes=True,
+        profile_memory=True,
+        with_stack=True,
+        experimental_config=experimental_config,
+        schedule=torch_npu.profiler.schedule(wait=0, warmup=2, active=1, repeat=1),
+        on_trace_ready=torch_npu.profiler.tensorboard_trace_handler("./train_profiling_data")
+    )
     for epoch in range(NUM_EPOCHS):
         if booster.plugin.pp_size > 1:
             data_iter = iter(dataloader)
             step_bar = tqdm(
-                range(len(dataloader)),
-                desc="Step",
-                disable=not is_master(),
+                    range(len(dataloader)),
+                    desc="Step",
+                    disable=not is_master(),
             )
+            print(f"len step_bar {len(step_bar)}")
             for step in step_bar:
-                print(f"data_iter {data_iter}")
+                print(f"Profile Start at step {step}")
+                prof.start()
                 outputs = booster.execute_pipeline(
-                    data_iter,
-                    model,
-                    criterion=lambda outputs, inputs: outputs[0],
-                    optimizer=optimizer,
-                    return_loss=True,
+                        data_iter,
+                        model,
+                        criterion=lambda outputs, inputs: outputs[0],
+                        optimizer=optimizer,
+                        return_loss=True,
                 )
                 loss = outputs["loss"]
+                print(f"step {step} loss {loss}")
                 if booster.plugin.stage_manager.is_last_stage():
                     global_loss = all_reduce_mean(loss, plugin)
 
@@ -119,9 +151,12 @@ def is_master():
 
                 optimizer.step()
                 optimizer.zero_grad()
+                    
+                prof.step()
         else:
             total_loss = 0
             for step, batch in enumerate(dataloader):
+                prof.start()
                 input_ids = batch["input_ids"].to(device=model.module.device)
                 attention_mask = batch["attention_mask"].to(device=model.module.device)
                 outputs = model(input_ids=input_ids, attention_mask=attention_mask, labels=input_ids)
@@ -136,8 +171,11 @@ def is_master():
                     print(f"finish optimizer step")
 
                 total_loss += loss.item()
+                prof.step()
 
-        print(f"Epoch {epoch + 1}, Loss: {total_loss / len(dataloader)}")
+            print(f"Epoch {epoch + 1}, Loss: {total_loss / len(dataloader)}")
+        print(f"Profile Stop")
+        prof.stop()
 
 if __name__ == "__main__":
     test_hybrid_qwen()
diff --git a/applications/ColossalChat/tests/test_ray.py b/applications/ColossalChat/tests/test_ray.py
index ca2f1456adef..16f5da507e88 100644
--- a/applications/ColossalChat/tests/test_ray.py
+++ b/applications/ColossalChat/tests/test_ray.py
@@ -32,7 +32,7 @@ def destroy_worker(self):
         {
             "precision": torch.bfloat16,
             "device": "npu",
-            "num_devices": 8,
+            "num_devices": 1,
         },
     ],
 )
diff --git a/applications/ColossalChat/tests/test_ray_vllm.py b/applications/ColossalChat/tests/test_ray_vllm.py
index 2deb048254fc..a0d1270db229 100644
--- a/applications/ColossalChat/tests/test_ray_vllm.py
+++ b/applications/ColossalChat/tests/test_ray_vllm.py
@@ -13,7 +13,7 @@
 parser = argparse.ArgumentParser(description='VLLM args.')
 parser.add_argument("-m", "--model_path", type=str, default="/home/duanjunwen/models/Qwen/Qwen2.5-14B", help="The model path. ")
 parser.add_argument("-l", "--max_length", type=int, default=8192, help="Max sequence length")
-parser.add_argument("-w", "--world_size", type=int, default=1, help="Gpu nums")
+parser.add_argument("-w", "--world_size", type=int, default=8, help="Gpu nums")
 parser.add_argument("-t", "--temperature", type=float, default=0.8, help="Temperature")
 parser.add_argument("--top_p", type=float, default=0.95, help="Top p")
 parser.add_argument("-i", "--input_texts", type=str, default="Find all prime numbers up to 100.", help="Prompts inputs. ")
@@ -51,7 +51,7 @@ def destroy_worker(self):
         {
             "precision": torch.bfloat16,
             "device": "npu",
-            "num_devices": 8,
+            "num_devices": 1,
         },
     ],
 )

From bf5b1537002d896b1244fd2fce0077bb8e2fa4a3 Mon Sep 17 00:00:00 2001
From: duanjunwen <935724073@qq.com>
Date: Fri, 23 May 2025 11:38:21 +0800
Subject: [PATCH 09/24] [feat] support ColossalaiRL on Ascend

---
 .../ColossalChat/ColossalaiRL_On_Ascend.md    |   95 +
 applications/ColossalChat/fusion_result.json  |    1 -
 .../log/mstt_advisor_20250519174404.xlsx      |  Bin 102316 -> 0 bytes
 .../mstt_advisor_20250519174404.html          | 7585 -----------------
 applications/ColossalChat/profile_log.txt     |  278 -
 applications/ColossalChat/rl_example.py       |   10 +-
 .../ColossalChat/tests/test_log_prob.py       |   58 +
 colossalai/shardformer/layer/loss.py          |    3 +-
 colossalai/shardformer/modeling/qwen2.py      |    1 +
 9 files changed, 161 insertions(+), 7870 deletions(-)
 create mode 100644 applications/ColossalChat/ColossalaiRL_On_Ascend.md
 delete mode 100644 applications/ColossalChat/fusion_result.json
 delete mode 100644 applications/ColossalChat/log/mstt_advisor_20250519174404.xlsx
 delete mode 100644 applications/ColossalChat/mstt_advisor_20250519174404.html
 delete mode 100644 applications/ColossalChat/profile_log.txt
 create mode 100644 applications/ColossalChat/tests/test_log_prob.py

diff --git a/applications/ColossalChat/ColossalaiRL_On_Ascend.md b/applications/ColossalChat/ColossalaiRL_On_Ascend.md
new file mode 100644
index 000000000000..1b258137d40f
--- /dev/null
+++ b/applications/ColossalChat/ColossalaiRL_On_Ascend.md
@@ -0,0 +1,95 @@
+# ColossalaiRL On Ascend
+The document is the instructions for using ColossalRL on Ascend.
+
+## 1.Prepare Develop Environment
+
+### Install Colossalai & ColossalChat
+```bash
+git clone https://github.com/hpcaitech/ColossalAI.git
+git checkout grpo-latest
+pip install -e .
+
+cd ./applications/ColossalChat
+pip install -e .
+```
+
+### Install Fuyao Ray
+Please update CANN before install fuyao ray
+```bash
+# Install CANN
+source /usr/local/Ascend/ascend-toolkit/set_env.sh
+./Ascend-cann-kernels-910b_8.1.RC1.alpha001_linux-aarch64.run  --devel
+
+# Clone Fuyao Ray
+git clone https://gitee.com/openfuyao/ray.git
+cd ray
+git pull origin pull/5/head
+
+# Install ray
+pip install ray==2.43.0 --no-cache-dir
+
+# Create soft-link from fuyao-ray to ray site-package
+cd ..
+ln -s ./ray/python/ray/ /usr/local/python3.10/lib/python3.10/site-packages/ray 
+
+# Install Fuyao Ray
+cd ray
+python python/ray/setup-dev.py
+```
+### Prepare Model & dataset
+
+```bash
+huggingface-cli download --local-dir-use-symlinks False Qwen/Qwen2.5-7B --local-dir /models/Qwen/Qwen2.5-7B
+```
+
+
+## 2.Set Distributed Config
+Now, we need to set distributed config for multi-node.
+
+### Set Host IP Config
+First, we set host ip config.
+For example. I need to configure a cluster of 4 nodes, then I do
+```bash
+vim /etc/hosts
+```
+Then write IP node map to /etc/hosts
+```bash
+10.0.0.3 npu-3
+10.0.0.4 npu-4
+10.0.0.5 npu-5
+10.0.0.6 npu-6
+```
+
+### Set Ascend Multi-Node Config 
+
+```bash
+export ATB_LLM_HCCL_ENABLE=1
+export ATB_LLM_COMM_BACKEND="hccl"
+export HCCL_CONNECT_TIMEOUT=7200
+export WORLD_SIZE=32
+export HCCL_EXEC_TIMEOUT=7200 
+export HCCL_SOCKET_IFNAME=eno0
+export RAY_COLLECTIVE_MEET_TIMEOUT_SECONDS=7200 
+```
+
+## 3.Run task on ColossalaiRL-Ascend 
+
+### Start Ray Cluster
+Now we use 10.0.0.3 as master node. First we start a ray cluster on 10.0.0.3:
+```bash
+ray start --head --node-ip-address=10.0.0.3
+```
+Then, for each slave node (10.0.0.4/10.0.0.5/10.0.0.6), we add to the ray cluser by following code:
+```bash
+ray start --address='10.0.0.3:6379'
+```
+
+### Run Scripts
+Then, run start command at master node
+```bash
+# Hint1: replace /models/Qwen/Qwen2.5-7B to your model path
+#        replace /datasets/train-alignment.jsonl to your dataset path
+python rl_example.py -m /models/Qwen/Qwen2.5-7B -d /datasets/train-alignment.jsonl --master_address '10.0.0.3' -t 16 -i 16 -p GRPO-Train-Align-Debug -g 2 -ibs 1 -tbs 2 -tMbs 1  -tmbs 2 -imbs 1 -b vllm -e 2 -rt boxed -s "Please reason step by step, and put your final answer within \\boxed{}." &>run_log.log &
+```
+
+<!-- doc-test-command: echo  -->
diff --git a/applications/ColossalChat/fusion_result.json b/applications/ColossalChat/fusion_result.json
deleted file mode 100644
index ec747fa47ddb..000000000000
--- a/applications/ColossalChat/fusion_result.json
+++ /dev/null
@@ -1 +0,0 @@
-null
\ No newline at end of file
diff --git a/applications/ColossalChat/log/mstt_advisor_20250519174404.xlsx b/applications/ColossalChat/log/mstt_advisor_20250519174404.xlsx
deleted file mode 100644
index 7d6f70c735bb1de84b3b47d809e90965ac236ee4..0000000000000000000000000000000000000000
GIT binary patch
literal 0
HcmV?d00001

literal 102316
zcmeF)Wl$aMx+naFySux)ySux)OK>Maf&_PWcMTo_1b4UKu0ex4yyV$?*UWQH?Kv~`
zews6@ibVrWH#dF%*L8LOkXDuh14jn{0MPFbAwcr!icup701$)*0KC5d^u!z;+$<d2
zjMTlIEL;s3z3lDA(?%70nUN*#d?a=mZ1wS|kvJ^6&0vy0BQakz)@3ZF3<^KpanleB
zE9*9)HiRd8S)MtgXG??}T$N1ZkmNZx8<U<lz}x+5teXuKST(v+)DBV6skXJsH-;1T
z5M0JvXW}<b$zZ^&ikQxIj<JA<?pgKzYGbu6T4?$mLG4U~M@?<BeuL=u%n~%`ttnqn
zbVw?*ijw<S&Hk?oRC3{H`ZjIMW*rE%^@S33meVV%%Fg2Jb=1qbrFmlu{<Bih0e^XG
zPd_BD<2D6HN^FEB?Jr)18S4E_bc5aAyXAsL0((&MT<K}3Gf}0KO}kT|Hd6w*lA>Xd
zf@xZosf=CwTj%Fxr-p3KhOSYOxK77~1xR`9nt;0UtGy|q1hdB+V{Z(-15dM8Xdh>j
z+rw46g;4v2c9nse_zeuQ^ORGi7mQuA*AV;!=s^&a7%@_ODRFK{aqgIKr!3?xZi*g~
zM|I&cYz<|Vio9)g5s8Yx2n`5~YFJuB4D~+RvNR1<mdYYiO_~0xga{o9j0Ra+%VhO2
z+Va0vJTo<z7K0wPVMk@3Jv$B_ES=-GKZSCBgi!w5BwyyrEdP3+Tscqx0PcNh<YHmx
z%Eb8Rb#+4b`{cq4pTAG;Q-*^ybbfIganTwjyI>c&171^fVPDYMd3c;Ke6$TzjPuEX
z)#&j!fAmqb>McGzeI+hB#OOrmMAzu6jWZH09AqdN6suDaeCEF8i#(ZZ`EW<94u<p)
z<j45?Jojb+g*3Vt^bw^|8&R6cxnE%(T`|`cHRo=R!=Lwq%bO>Jm%me#y|B!1*g5Dq
z{)#^}DIm7eeIB7UmnR4h@SZ!*3enonr&XRhFwk6Rdlo3ok)F!WYtFJpQ7c#69@Xu1
z$6qmkIhc%+6K#2G#n1Q>Nam>nWA@BCL&Y`a1Ni$9X*cqJjeL*2GAaOo`+h{c?3n&>
zP&^%7KA1W>e)tpozYb8xqMYq}`af^^Dw#Ao?&2KiY@4gWE;auG2^OeRup5>>B5SFY
zu}&1m{tn&1nlOED<O|KTuwjttlYkW6&>E;xfm;8C4o`3I$oJ`zTT3QvAf?1T#l<}@
z?`LJ`9$gb9qLt{{H3?40Vq7Kfz^lx$^4wfHvx~se*7(H3M4!noy0uJGN7|XR617t%
ztFrm|F>|&35l30&;oGTMf6KPD8k)l;3?hOhuN}0<(FfnM@NMR~`v}vT*XBS$L1T7#
zjYki7*g;~fM3_Ny{V{EB%dvj>U^7bnF?DXsk^Zq@GfVw3eQwK%e)?cDOnvyGnWJL6
z819~`9^!H4uZThHeO<EfGw5I+SftJ1s|JY2S-uhmu@7}cz|W9_ePER?gs&Q*u4b*L
zEo>Ya+KBFF8vLK$uZWtVC97nWt&I9lA9V51O5SlwnV=cmvq|h{YOCxgA=HIEh?vcI
zc{R8|Xu44UA+fP|#Jc11)FNs00<HV<AExkA=|o)z<a?m0008WNOyQr&bG5dxaC2q)
zYr*no7LzmNT(`N=zuaBXQQw+X(GAC{C)6Nz&(N3H+U9)VN(;8_qB%Jmdw!}5K=zr$
z$Zt3dEF{aPiz%+PcMy7M(~13|)n=*Tcs@WIF<5BJSBq77I=gmXD-@aAa8YJ6dRm~r
zuyW+^Y&0JwwD#uqq<j8@b5dhI<~vC9_}YD|y^#ZDqUEc;{Rm}+QHA|NeU)cs{ptEy
z4(0f04K3D_V&+ZoHg~$+$h?OS_LimRIQET8Ylc?r&GSmha&xGN$NYD@wqIP6m8q6K
z{%zXs_Pzpz22JgF{+e8dRy)Hlr>})?h8nfwOUEjDeh-DZT35}wZg9+mH_5)`$F;sY
zOxfsn22@imi<3t!Yt||ZqmIY7caQU0m8A#Gczw49`#0a0-uRZQnxEpi_BunAv>BEU
z+Un|1EHsybPrR;+ZI?~w&sGjLGMd+)U7gBzv_n-6xnZ*<hZTzCpUKP)cd#GXLsV_d
zhf2~P15C!8v9AQ9TE904cr>49Usdu^4NeR{k&2f`xMmv)JzaB4er$%;@|=jtZn&Fp
z+iPLw=`$tDAFO9Mcl5kDwr=s{VzTh3D9@~tyJ*J}x;y$&jaNH)d-rtjaoIt%f9NF~
zipyJan3unULh$i0Ex#9@0D|{qYHKPUo`8_x*D%YkpT8Ql$r&+E+h%p{q8KoFU7EEI
zmF@b8Hs}*u`nN>8AqFA*DdAyfO-*pA`hV;~b@%+(E4NJa+U<#ggTTVaYDYvj?GuHc
zNT4_s`TDg?0f8wPj*Ssr-%0;BrE(YsTphO@=H2^Nmx37dG;o=F#m@PgfjfaM0W+v|
zjo?)MOog!wv%&sS`f2}Ip#=J+$drU;BEjGkiAb-6=6~$YCNEB&o;*kgRR}_`S)R=h
z8p~3j`rGEW%?4qTR&D8+hTW&d!4#VbxUGK<&4-X$y#KNle}_LjcZ}#$3Dsmdwz6d&
zdLFm(b1Q2VwJ<KM)#%+m9sg|NK?iBgm@tj7bKbqHg?4-t80@4AYkNVgfLg!Oxzs;5
zYKJxXoWLWzMWgh**xJLU@fkGlAKQ3gY=cmM1@!FXpc=++%6Llzh7!ocQpEy>*&v1h
z5n%n5$Q;x-c<4FzeUs$fg%5^|-snsVImvSEt5=eV`$@&&G4+ePYeahAOpRj-xnq_j
z&e54eVMRg{%Ed_3tQVCbknDs42Y)AnV1g6_`UAE#!laVm$zh$vdiUtOxH)ABC!%4Q
zA(BARp(3<M)Kyq3smW2sFH|mtqXVIA!2|!bk!eyC3oMC5uLk{Rcst!dD9&oG*l#u<
zho85FFKGLC$r}(!2C*k{-&ZgU_i|MyN-Z}+Mstp<Nu(6;%X}xGu>_%o+<z(Q4{-$_
z6DP4GO;3mR9&*aV;70}@?hSIflolZd&?@6o=ZFeR1U%6}%Y~dz2SNoAdl5ss(Lf(W
zbH>c-uTYQ9`n(MW3DZO4|6U!w_`yoTOolTCoj>a2g~|W*ScdS&F-jgTH3T&xx)O;x
z8O}U3%BWKoCO`HqopLl|J}yW_!258~ML7~wqLJ(1g{mNsLSA6i3+2i<ts5y>Xn&$l
zlN?8c5-1~h2nch)=Hm{RNrq{Mu(fS=6GIb1i@MN23){a(fd5Nbw7D%=5kumo3j}G<
zU+X^p8Kq2$C6wj)CGwyT5hJ7}4|LZ@bW?!@o!Gc(_*G}DGkFnYa3pY&HgxbV!N0!O
zMJd)>l<kbIMJg|5=s>8zI3w5|@4^Xp$t0=r>6ehMmR(chv!E`aQ50m-FVHHZ!DaC$
z^i<;AU?Oq+{Ls8VkiijJM&6U>MbIP2V3sSX-|(9sQsA#cnm7N27#{a2ktDJ@#`MGE
zXtwKA7yT=fAsERKGKp<EGDkx8UNH4PzN~O+AmDE2p9yx@Y{lQs*!$Oz@|YmD+F8QY
zGFQ|klKNlP@cr1~$F`^QE?A79F`M8caY-g!wA*{w=6_cqCE@&a>}$pN%Pa`zhMZHb
z@^-hvn7p~SKX@HM$%4Gc`51Z0CjEpRHGL22`|j4{7`ReTZo!9dF#lRRVS{tPZmJEM
z*|Hf>`YTZC3U`YV|DSs`F0o*qg;s~r_YDjcqKe~(sYP+<2~hnLL0oG)ms_&*)XVb6
zrd5IJ=5cEShPGdQDlOD)y+}2;wJVPnZxwGaifhd``=@KJ8jKYNZ#64@Deh}OI(`ZL
zy5?(sdIS0US&N6W69?A&Ib6Vd+xs^ykM*yXmn;{X$^72(UNBPb`i%``z@theRNBha
zHGHcCi~~77$DfkV`Wvl~+YD&iT7mtz&*}|jO55JD!0!r&9llrZp@t^OQ|r~^B#^z|
zd3t?;1T7z$O9)VE4DKusMw)Ni9_w#7q0tbAlCKZ$P`yGVS-N&3XWeAWzLp>Cmri2r
z2N~8;p3$A<CdLoJ!G+1(O!$iSme}1E!_l}u?p&0pD+*2!HgjKZ)ex*P%_?A(0|mXD
z{F`NY9!Ffm<or2tx}hBp?21?^ODJ>ORj+4CdRn%v1=$F~+D0lS=y6~&mzwWdmPyx^
z9)YMxATT~XIoOz->DI@x`baLUfq1-^yN3o`Nxecq&Eq?dZ2zE9B=vW329kT!Kt~cC
zWD1kpkg$7Hlnv4XYQ*1^(K9W5<f&=9Ov98zg-&<}Z}1|cGm92g;iMWQ_c+j%DQqlE
zN{w=EJGibF)A~)WypxSr>K5Jsij)VW51a9JhH`=*$yXK<KE4;3OmLe4JnGv()8oOr
z*CCJ&*(r?Coo>VwDb%MrQzp&!TPj4&6H{;g@}RwVbHA#-$mFUQ2R$^b(H-YU{ZHh2
zLYhbYvRbbShsMQ>DT6!gKW?SJ6470mT72+7F}C>Ehg6~9)_hCZc&3=d@fXRvh577Z
zgYZG?PCj{5-P=i7Vr|O$KP*%%d=kJYnQ>GcZ2gXDDfR6|phD>HVFK`7g-w7100b!i
zHcV`P!W6B&;;_Ss?0c>S{gG*W%R(Bm8B1?P<ViVC`}(q~X-`{wg_Yc*;pGX@!clmp
z@%u+<`pK=}P*=XO=iZjtx_ezu-`N~23T8vh8}F5~jH}Ut=i|wPTzj2sG52+i!CQT%
z5&z>K&tIQyUVnNRJ&GA1LGW<jMP4$)r<N{NZ4e%*%{Sbt<__08wyAMUeYj&iW->51
z9gry9k#~w|P@B&htqd(alk#bN@@=SIIK915&ke0itP#`%v+opQPyL}k;fb)spIcD*
zzE3iK`>v#hJ)h@Uf36!nA|FQn#7X<7{?6xSy`)t!E6>FPXDolW{+e~I+QBWgr`r!}
z?f8(q9H*&vD`rBk^or3!BlX-G8v`4T;||>Pvi(&*VXLPtE?Un*4=l0AR~G!NmEQD4
zoLt@ANgWjX+R%C%w@~|HpW?WP9@n70z3K6{CE$eDR_5zYwB1%8O1k-%`?PP#%<4G4
zq!PWf6h=QkK>HZzW=;P1D8x0ygcBA{QVHKT5a$lLZ9241xP8xOF3G;$8b*)BQiHW4
zn-iDzwOSO<IvNsvXW98}C|EMANm4qWfw??*P_&1tPqwkg*$SI$WSZ=%&pah9ix_h`
z0ilXCQ<4#$wYU*4H&{E2<0nsH09$96S8<<cRl;EzW0`1Jo-601oP~EejA6b4dAmA3
zvz$bKR0CNx`KJXEP3OoI(E<8H{Vvfe=Vjc;7!)4ZR5fo?UO9OsWH@^nk7~Dsa77r(
zfz@q(hBD;iDmTb1GtuFvMF-KcDPjy+^TWx}O)$f>y)S6(qM5Q@UpSei1>!CtFebrG
z2p*;pf1PmbT=R+1_u+~uo0YjyBs2B|!LsR?S_W!c&%&^vq0JhzyKdH}V?T%>QnOo?
zbrFdsY-J)xF2fX~;5d!w4iX_Z=$LxEf3_TFTRjU4t^GtW&RvFs2Z1StmhfN~^{|V*
zCE5donQtHc9ydjy*A$<AN?PXok(p81Gc{FpH4ZcLSR1cGu7nteARSbe_J@|Cv=gQ0
z9WS?{F7b_!yCF91x*|(gQjUxo_S1@w|HyUUuxA<-q+shp5P%_|ZW;nIG`6@RZY&Gc
zn3P;(HN>UR40TONjhI$|g=-*-MEY@=TZZhYn?JH!pHx;(PqW-(NnE%aqJNa6!Hf(c
zLrtE6N!VC6KwMIq1Dc$)54R?bjZ=;RlY|(Y!8obs2j{FJY5)ZVdA}kvO?i^VRDtP7
zZyZoHUUJrw2onrF8aH)M`CbjP^duwjk`k#VD)5~=RyICJJ%zC;B!$!CC4tS<R5Ipb
zDN?ec2=ZoCJrqS&GL}jbGUfsZ@)v16PDWH^F2DHCb*nlEUHG`XTu;<~-Ws54_2jIg
zwDP8vBC7RC&ia;62Jjy2NC-_{u3BCw@X!)ACNh~iwJn6qqsOResFd+2sy3*4GRH8q
z{O#exZF2JDiqf)p(ds3p@?&iyaNTa6ZlF!Z%Sg`fE`s~1sZ`9xO7G)=g+L7#9T#P>
zxF2H5-bG3K7zb7~W$<Nrje!^vO@y(W2=4e{ZFoe-iKIiF>E>MHZYJw#Tl@T1^B~T{
zQH|E+#nqJIfYNKtDxzEe%d1COrNP<*SH+X>3gU**^Zeb55Z>t9f4GKppzlKPhX4So
zasF)$WdBnGv(w+NAtjLq&mYi}&QNBr2(i94fq?N8(I$`VR6&@OL5R!LcRbwU!2Hx~
z3DKbwJR$X*JTA>Sd)*l>bu8UEq+qHPbIzfRt2a-|<?6q6^2?y~e`$SQqAaYKm{>W{
z&bqR>bTp*MwG>h?jJ*8NG<o%Lmx^0!*4$_zHT2@!^2wE&W^q4-(5KNFY9*ahqR~=k
zcbY4^6+~Ww!7LU5L5omVm+Y<l=OO%l2hYXbNYg8yk;xnP1Xdx-rVYO)A^i$-&LzV3
zYM#lmG0)juHvXz^@|~q3gU55RS6z3(*o;IUnuyx*-r5zL9^3`zNzbLT?K_voanGfz
zy4ON4gM-jg-_!DP%b^l(&C|}p*?f`oD8;3g+qZ?@=5-~sblu{jW=V=dCT|TUB=-;N
z{95kLj|WHKE#)<dzgNhg?NJkHd%=IlPLepdhPCi;zx_7$#-rbW40`!(?2cEp4%LQ)
z^s}Y=(RYOzKd*J%^mX#})cz~M*S8A}_~keqb9c_nr2gYFyN*h^pR4FzUj=2k#+ih;
zI_>TKeo%TCS!yZ`Fpcwbr5b@ULbi=PF(Q5)CEe_)8#U{aFiy4Tk}yrx=#nr=b?@4H
znKGL^M!-c9-8uDIk1-F{?BhIN{wAGmmZE(05gUPbFE4Fo?9HiXyY85-t4I~Dy1MNZ
z*}=f*YdN@#;TCN57`JEn?lK1)n+&OGv}QB0s#y`Un+3QkxJU%_P)#)WZ2N~DR*Sr0
zOe|A?w1_b1f#%iiVN~BC>gmXV=)~~4CTI{k{S9+;BZ4$;n1Ru7nnD1}8|q3j3A`$#
z$jF~v;9D`ui0k5F!SMi!$cdBH3#62{mDLf4D71$`z^4-i?)8kbnqu1d#FZgnDxkY-
zqO-hftf^Tu9_9dn5y-n^Ql!kN$Xao*L36rO%IaXk1<BEvG-~=RIB*gK;N@h*ZJY@$
z2N}TyZ0tNogwnb0;&7<aJ)h>li<nni7);`DH*A;#yL5h$C*eyZl9BTa;%3L|oWlmv
zgh>>^1hS*V8Q?9Qtj2|%VBoNQF3bm^p?4);VnhHrq;I{Z6C*`Y?QWc9MGuDrLoe6d
zG%~9CzDO*L2eQ}{zca=FK|Rc2um}RqKw;g)#;ae#07(-?N=SzXBBOe@Od2=iSv$b|
zsdUy^B$zSq>xV*w{6c7(%w{JrWZsA=sk8)>V1td4*{u*#H!xF_YC90sI8^<{SrANz
zMjdbp)`VkTsR2&5nV%Uq+UvE<L#_6B(WVo@Y-BFC>|Zz<2R8ftr?|KK8N7@JlT%c3
zJcHr-ygZ^~F2P3<DH|bN9!OM(#lNtpG=GuX-OFYVB9tYL$EjTK(qN)c%}w>~caT|c
z-9b)aL!M<Df>xgvR+^a_ZTn1;0r{~&QdbVIj{=#eP~toRjHm~-+P3k$_Y0<CUj`90
z9d4Kmu6a?de@qpFoMIv+d_0G+dvwxj9p5<ldWPd@Q?We{yb7n6vp<olvfqTY8KQ|j
z7>jdIl<*!xeY1Pmv?`)+fNLi*hz7SPH*&{ECo$TK=z{{S@c`*;YqRhy3bvU8<l^Xd
zFgAKu;u6<5l(HF-pPKY8%Q~V)$KuASb%pTE3VWpMiAbg;)}Dy!2Ynf&yY%VGhV?kZ
zwG`58CODeB$cen~-_i*{gHQ7s)HQ4sq{7oj<xA$_A&t{iN7o6-yjYwqZW^YKcbn&E
zuPv0R3lvTOETOr*$+F=#eu4Mr2*O_tSxnViec{dfXjD^7%393gFPr_*JLPjJYq+$!
zkptPa-b_nsuX>t-1QYXzY3D~aJ*q-l-Y;k(PpyoMr=|PH#|1T!vv;MwIrdle-j_C?
zw9s$vLigeJS~?rYUcvr;;;M;M`?cr&Cm1mv|F&pz{3+VS1_rLH+zCFNM)|V>MB+Xu
zo582i9OGx2Ty5UY&MkLUO)Jf&3{7G)QFpH|0rm834S*;NE~K`da=SceayX4)(w8Hq
zxAq5@+rf*o*GIRfNBzqE=M%4|*Xymv+u7r*x7XVF&cUmOr_jn3BrPMwmcfOCw@>Xt
zZ=;$1-Z!Uicd<{CgFC%CxSO}HHxCD)p|za``m3F9KJBgFwMuITSIi&0zPGi0l=g3b
za&vyWIrF;Nx{%^BVw9h4#NyIgXgS!Bx<5VB8sPSQ_Ii1}Kf8Xt%iKBby%RZ$F{&X<
zc)H82?Of08^uF2RUD`k9Y2)+r@qN{LS=n8C=+D%OReL*qyg&83IJde=etvO#9DEKP
zMXH_5#Q8|_wNi@db?5A)_hM)M+=%e?>e}A5{q_2Rq&g$l|MK;E@Able(xK*{m|v)^
z_3>cm&A;vS_wR=rZ*|I#r+Pb+ldpd5{@MmY{23c>es50SA9Bx$U)bmFM8;-`_q~zL
zl0C-d2EHnpEgrDARr*+0`E?VY*&yG!#{C`@x>XXo74kpPxL$8!dHxP}I!k?e$!pkN
zuw|3<6?-q$A3xU*KiB`n=sVupEb`hU0Rrt|NduEM?AkN2)|G2os$+%Uewm@y)v?f9
zx1xQDVf($QAF}$&8<x;DQp^#A%$nSt)EjZ7;n(@srAekA8_%%;+iUZ^^O;(nrH)pf
zv4>B!TCP5Goy91#;#dAJ$IrP$(KcN?<}Vi|aJ7uDX;2>n+sB1TMIYgd#D@4_rWJzH
zNJ6K>boQ7bS&s1sNG%h4x%>3@nF(1|@Jl4d7(??l2wkyt_k9t?j(vuV*{iRTdY|<V
zBKy*;mecs{$9ACipB%%PgzQGAZ9*UMLp%=GTo5f~`<p8ke`2hZn6?EUH_@!>t?!<q
z&ODYimclKA6xgdb24g$J*Xk4Z`Gx062+(8Qq#+Y+97ej45LumccC<aONL<y52d6%R
zTAN%oeziDXUmi=DMOZjscI)kEz|d8<tBkNWsI#YS9xZ0@$esysSUN@B(l7NX!t;QF
z&b>603PTx`9%Bt&)cW~iY%~_}z9;Ri%PJ?h^RP)r1Ixi*6GyJth?t{1jV!-ji`=mR
z)6{Dy#$UwBQkq>l8cWeb+gCRy!>Q%Wtea+1CQ-20XsxUt391SZMw)lKzlj$uitPK2
zcY_&bv7|VR%K+?hzyv2jI(M0!yR2?gV+I97O%Ul1q)EQ-teR+p7Ra{jToRdrnR>S@
zSU1<uAT?d=wOyh5oT;M?ADp7b^@LX6w~N`~(J4lU6*DYp=?i`yWyMyo;6pARM=Lf+
zNDG^>l<q3GM(h>WnJ{r91w||F*GA!1|7<|_Lu=vs)7lJpX0s^FSDksB67cbL=kG8c
zi81)N#zi3ah8tS#e2w4QmS?khH2`1VNIKt4aICD~#4H`deSHyopNKXe+t6dHi(5k|
z21>Rwn!TDD2N#P`tVw?6w@2V%uQ}_2yy7g_%zL;Y=wXvU@J${-a4&k#JI`|l21Qin
z3XB>58ie}I^0F8oga-0l-~vk6$B(pq*+)(&-Z~ia^XsHBI8ushQI#OYY6?=0Nq8NL
zJ@_Cfwm4tv1VN1yNCB_zp+Z#xNVeND4GOaHXP)1)5+_4a)dgfkQkU^^liCzuuivJt
zNaVqpi}R-ThNl=><;@RS&GR7M=TG;uC&8*44RKl5F*iL+wZm-p<lP=@s7*$mZb>hy
zsX_%Vcj5{?iVwdVI=-qMDOby8i8BcSh+ERxkb+~<mYa>fX%^eByshtr+Xwk%ioZ#C
zGyq-UI=W-BTH~x=NHqEJQuP!+%^wJpN_Vm6+p8TZ#eon{RHi7+VLTpbY(6<6geAd5
zoVW);Gb%AoPsW8U{9bCekTNqi%qy(6mB=%e!c%m(b(cc2)>P;{=9x#9j!vj3Cjl{Y
zIE3fYju;Bmj{NLx_kCWUPVF9~gT;WCjQ=>E4t!}qS8-&4T~U5VTO|ZE?7UUZW$`gC
zrDbn5kRXOJn<gV&6wx!A75_-mgQw)zz0;zWf#4=`IJ_pC0WEZqoXGeb@p)ZNxk3m`
zmCCL#YZCVIj;7=qh;Yr#2vm&%%6kXrxf2hT>t{^0!TT&-5LY=d!fQ&Wk73gvqt7u?
zPe%5@yCLE;q3$b?S8Ma8lbLM`Z7wacIEU#q20wh55`qy$FAa{KM)l=DJ(HWz7NEZ3
zLBp`;X89$}xc3=9QYUbys2GW!+Yvx!)APz%?Q)3&^N<;XA(-KD;#f*5*Gcw-r@s08
z!RY1=@RM?0oK&rvB#suMNiAq%;A81TSo(=YF4(X!Xkgw|wF-j}0xrN@73J_-421ac
z?9Z>Xoda~L@^1(Rb$e0C0>1E4+hZU~D`Puo!ofQEd$P9XO07i{O0A0ApI@A>B*>l7
zWkf~RXCO$_gZKwj%O(!9@R^_RhdAYt(x?z-iXe8}907CsS5BwjLB*xZKOFnYsOy7q
zTa0ASTIeJlSpJ-XSY%#cAua3|$#P+>-^3`=56NYYI`mX72wYvr7WnK<88c=>2TiUh
zf;~@MRmWbz_MM7K))$d{XT&AvXYmbcMwn!{YGn+ORTcD1x!VSt4j>^g(QF8kWc#;>
z((J|jMMph_5N`5_$v%{*sH~ZUzKGU=zI1R(MkUnOiMC0rM|Ck`A=sXB$nNN3wd`pL
z9_2fpxLv3*vnGucEHi+-F5_TJFD%MccTqawXKVBgS3H0dft!p2XTumnAXKZ3_Tn-L
zDXrfRzWP){&0Y>JB;)Ls>`cKDT+nb8WmS$a$AUI0vLqKH(OfVYQ~Cpza{6i7ugI)`
zp+~oM=yLEq<!l!{m9;K;*<G?c0#`*h8NZSp`3rbG7gB?;FkHFdhVri{lc!4xD6CVH
zU2|dIF7z=J;1AuxaUgUwg1`rRDkjQG+H>CzNP1lsRi9gz$F?_|G2tgUi36-C)B<#&
zpI#yf*m>=+#o3h5k`le`0H$cvo8A~mmP=Ks%LFXHSO?fTf-yEGZK5>n=_ODWc@bTX
zvI`Uzc}dPa@Vv<Y^GK|*+29A;Z;oKhoFyw^d&rVr&MCyCLsk`d!eR13&(}1>PFWk5
z_*KIv$Wt;h_PZp(N#AO}djpQ!Q`*(l5CX=isVgBHc{Mc^B-t$<-;b_2B<;8F@v-xe
zL8c|B2w8NJPB(3m!m?uA=4lmKus<Cb8MG%>F5z>^Tg1dksnkB~vP4O<RyYuL@t%Lj
zXfGp<!zvC@Rz4J$vz8>-Lu;B05WgcDySi^oCgMjrl%+NLMyk&eNQc&_hw&h|3J6qF
zx|}W|51mKM5rKpQ{ff-O+7+JAw7&xqWz!3mdXOldgcu)aX)7FVHa=&*t1Ni*h%c=Q
zx-au3xZbA-@$*GAEWK$pvWfX?9c16?2n`Ynwiq~^IwhK?-UMNDkCGp9r&#cW1l*<C
z_0+jDya<A-@JimOuQ^(tm54mnk*3;|90Ig|Rcb~Q`p9(UWWa7X=oNc*r0N$!fcb%>
zLXEu^xJ+qdnG!PVUEtu5y0b<_UM;0XMgY;4V{z@JwMdv&iZ8*JS_UlAPuCh#U)X0g
zrH!HvBjStl(s8Y&%>Nqm#Oc%fn8C$=7zeTv2<3o{Wu^R{oy8!|QYePka`=ER9#(_r
zCXP;PeOsORB$`gJTYBKPN$|jPC*SbhM7nWT7J>jJ8TM`UN>?FDn_pPc5?x#ctO75x
zfU?ljMf=>9co;qoS7Mm+^BV0>d`)vJ#M%p9^T@Pvj;O$Cx)_cXAsnB<2{_Ena|jsQ
z(}EClg~`FY_vaN9Y)>f&Ow1Rh#A)^i8u$0A!*9kDJNwHVBb|!VftCyo)$TcJBtq&A
zIzDiFU@lW?dUbpcbR$jAO}#QD@sL0PHGyb*S6C{WUiOHfC?r^6Q0lY~`W*H>QMr)d
z+?s+4l5@N6hpxmp1YbK@OFlE&YRrM+U33KlR#CqV@SxYuL!Pka3nLx0hZHmP66CGo
zN)oyx^VElqK{_d$qZC>61c{})q4J`qt0)U19C}sxWJHzy(ta2VAZPo!;Oh5F>1XAp
zT&ei34oJ`VCo)^KIP?RkVtFJ$*j?h(WGl<Ccf88yToIeIq~$H@Y@a$)ajtgi4|ncD
zNFhlIqhaMCU0T?1%cT(E(M?L3@f;6z?}Zn}c9Y+JN2B*V9saY-=w54s&6h%M3kVLt
zG_7BR<*`9AyWeH^MYE%G*sho{2bffyDka{MTnwQ*7gCCwLa*F=mm7)<ytEMsHrt!E
z6jzw|_CEEOpvg)*ZAp&xPCS5-4-eX(EL6(fqfa>W!3M$)DA>VMX;O{PQF+uTQSckU
z_Mt~yloz)!_)6IqV90oA*R@TRAcUkh*nNH|f~tJ9G=+mLGdQwX{djS^^nDkKF7Ho0
zY?R|9VZg%j2QxM;5dZ^(3yOpwOkowbe-jbvyYkeJiBm<KlsZgVmB+7XUk$sG!1(gJ
zpAjx0ZxF#X7+fjF6%9<jd~z|xFxJS{V%7KJr)8hwkMlpFHRn-U@bIf)<30sU(T6xc
zw2ON3@u7t$!$)4`h7lW|eY<W4{}d&uhtWrdemzHX@evJl-&1Fo?|Qd%6OwmiYs**$
z-TwRH^RpE5m#LC#he(F70?dtD%M$Zz#UI;(PzmzgAw!MNA!Y}k)6nV2RRAa!rT4hV
zBDa@Q_}h6Ru6(Ke`klljGU;()#JiMO%*Kvv7llW=-34Pfh1{m#dFVp0yk!zPaXRtw
z+&n`!JaLBvU%Y+Tr%QL$`TZc0SWM0cv1Fi48?z-){BB@`c}qGXS38@#19ok|2)VK|
zGnFJDf`Zs3M=`evO!X6O-6uGuT)xRfA?Xjr^#;;Y`wVpHO!tLp!;(PQ%mr2q&XkRp
z<>VAk<4cDi$4TlPBx73(8x_pZSJnbh_IcAkB`;uFNDB&a882jo8U`-$+3#|3HXoL1
z#<ciBg{5uBvGki6i^mp}joj_l6T`?Bs;Fn6k;#id)j^!jZGYI6Pl%!)kw0@KewZdi
z#&3JrqVa?*p!-F9NuNVXs!>p%10qhg%)tdf76H%7+JKCGUL_<RsHA@ET!fg8V&BHr
zWlul-ph!q>TR`%4Rp|YMD<aU&Hvb{sLM>B8{2|`xy~(M5HeTcuEKAX=g#t8PwQ$}q
z!6Kp=l!AJ;)}YLWOXeW}`aVUa-aomyk>6g-er5Q)pPG1Y!QGz1oXWh1)R-rw($^*c
zx(gG8YvWYlpM+u(Uq`G0OIrca5v!q|i6Z@w^FDkTbRRu|<OEh65a)UoRw)XAmDPtV
za?1=q07>BB%pykx254LH`ZOmr2{^LqJ~m38h0_vP4+{lvL9iELWMtlcY~e1=7VJ@Z
zFQrsL@F;ZQv!>~Lc{=y)&OFJU6Mz!7CNmP&VJWbXFo}lF{)HzY6o!UaY+l@t*BDcz
zHW@x0gR;Gb&H|pwa0sE&lTUxd=jSG{b$`Wyt_x-$!tI{7R_AoYnn7K9_uiRl-aE6n
z)t;0yWY<_mlJbC4QXC@M#d6h-rObZc%(|qXaOCmU&2zqP2}BgJ*)U=)SxHoe5H)js
z>ir(GUoWoJuI;{X&_fp;A57o&xPFn0h>&~UM4jKGoxx1-%`Cq34ET38y>q<1```G0
zBv=rp2{gBsi*(Pg3*5<vxJ#c6<eg#m%hZ}oyq8+sIAnd0JwjuaHN$Iu$G_~#gT0_{
z^QO((dQ@e}2mdav9seHabR@iKwl!zLu3}jB{sda>x*c8gP`!WeR|NXwXk374aVnyg
zS^`fURxaT<w}LE)C;i}(j#OuG$O{^8%m8r1a>sq{?v3B~Xi9gxG*b6qFY7vI)9Kh-
zvM%Lxz9w@ZgXu&#6iH3_?>m2X`j$f~g^wK1_$5*s)Cp78@)Z{>gTpmYP-O&%dU9Mr
z$oyc$Wj7Md8MHaT=JQc0TJCU;_5Fh@3j{9uwF(qLbXDy4sOzPA!3?nQkKp@tG`pO#
zK61u@I3=6J=O}XF?+<Nu1t2yE*oj98U0BT^&<hmbC>3_ZcP4(CR9Y8ev;fYrXTobU
zqP<vtx#;~Eygh`w0=rRMe4+9~HpQukBZ82bW0+@Ugj)X|wLFX=@}3fAkgLY4Pa@9-
z$pI`Q&OvLi!~@HHtm|n_z3U1NJd2;RJA>VSN#`X^t^?vn=pA6m_*`Ad+id7Iiq_h6
zsmjI58@AR*!a=^%VbDUb%!ve1MdmY7g+%<02MLdT=1ziE^T;j8--L>Yzlxj+@${z<
zzFMH_j~6AzGbfsc6y83b&!c7)qa839=l&V>lyRZVrU*f%nn&!*oAf&k6h|X*$M}7a
z&>&Z12<h9iI$*}~I~_?xnmAEjjx<3i8<^toj{a5l{{7!7aRxJ-jo1in2g;56PMM%H
z5a-x1*$pHsckwIU&r@#A3e88>^!(IW0Fs`98va$K)z~|##9N361K1Y##_Iq{JAbW}
z*9d1Vwiu3`AC~-cQEJ^`8)Zykse}>|%YM1j6gttz@1-XHV;U81z9tf3@v!7AUlnvh
z3{<`lvACxy*T#K@AB^PsL&o3t!Dlo@Ezqb|FZqk@(rmQe9g*CVFjLy1kr05Qjtoix
z*fq=NKp+;U`Wi{F&_qy+?a8sD&35)-Kx~{FBkJ1@MC-H}6#2QAq|9#4*Y}L^#V`#-
z!g~XR&zSIpKQEpYYfx_DW#zW4%r&=}uFgl9jeo1fLE_j^XWsU}LKly%^}O=1>Jwoc
zd_NI%;0iOjN|bdD3ZjZw(bqJ`YF*9%WDN)D*m><avMv9NYRho0!nxzv$+ygcm0bND
zNPf6gY>@))D|xzOnEU?4@qT1cMcg$*e&y@$$fB#iip)2+{N)DbQMXdlyn?Y)V~PJ^
zz<1oM45u{k;>p2?{#CNKRx3B=sj^LJq2<oXD28Zuzo^XH&*SdpT-f*dE_8Nb&_DC-
zd;e^2@2~yATtT8*LHzT5Aqody{%k_OXOq`9wA?q^C9XH9|6}*$1iB~CJ%R2CbWfmr
z0^Jkno<R2mx+l;*f$j-(PoR4O-4p1ZK=%Z?C(u2C?g@0y|7PyV1$0lKdjj1P=$=6L
z1iB~CJ%R2CbWfmr0^Jkno<R2mx+l;*f$j-(PoR4O-4p1Z|IOT!8|a=u_XN5p&^>|f
z33N}Odjj1P=$=6L1iB~CJ%R2CbWfmr0^Jkno<R2mx+l;*|C_ld570e<?g?~HpnC${
z6X>2m_XN5p&^>|f33N}Odjj1P=$=6L1iB~CJ%R2CbWfmr{@?1J@Asqob5HvJbVGAy
zAbbMh69}I`_yocy5I%wM34~7|d;;MU2%kXs1i~i}K7sHFgij!R0^t(~pFsHh?*^YN
zK==g0ClEe?@Ck%ZAbbMh69}I`_yocy5I%wM34~7|d;;MU2%kXs1i~i}K7sK0-wi%l
zf$#~0Pau2(;S&g-K==g0ClEe?@Ck%ZAbbMh69}I`_yocy5I%wM34~7|d;;O~|0ejH
z_S8DH0tEn&U;u!B_owb`f8aAYWz?aN8C&x13VrAa=1z_@?}%L?QI;%P(p9Ie8(h6>
z$RlB5B^DtV{LUy?A@JhjVvjB4eygx13eBXwNFng#%NO{W6B|v=Q1F-6rUzV-Ah=cY
zZv_Z4Q$jt{VviJpYPS<`qQN8(2ujK%;%%%7KbWMW9|D_;;yHLMI56vn5GfsTx^))H
zYUBs&K^q1vf<E>}tnK7^8=ehkoW*k3h%=cK^@t+oVp)u;;93<|sa>&P52IaM*BTm_
zmpCt6<tAi3j5p;|UP}IIqdlny*Ma2_s>^gh7D|hc$0wq@NX%&|;zt){%&5&cvFUF!
zDrB6OB`q8vT6=396OSieFbZyNauXxMaSV=Bp!t6E5)Y^Qc1rR|`3BW0j=Rv@+f&ce
z`Z&hk-qYlh=H}`~Cl_~nWv`J}43Xq5e58=}^Yk`%Ln<jYdH1Q?^OVa$6gfWmmd5tD
zL87&jxRw<6C(cok`gQ{8-6uoj@vn<NEfRIKV%_iR(_T_eo9}SpvIe4Z5PnX#_aEgq
zYpF7PQuid9Kdn)Pop<$+JvGM3q_V(Ga|EF2s_ny=p3pReU|Wswi$(ESa3b$0q+^9$
zl#XGV2GTSHr8$kXi^{XJmcSd!cL%6B@dmN69MS-y3afvkb&2b$eh8c9pF}RCXbQk)
zD8~w$PFNO=N|{46Z7eb*p$t}Y+CpFDQw5|c(E#MpZD@p}azOhI|MMcy+m*NJUigQZ
z2Q{99I(ce!)ffI@oj1(08VLI~I`>-@lF2r?@;D>H;PQkMj#71f*du)WPK%j0WjQc#
z^!I<c0R8?D0x<8nh+w>@a|+_$r<47!bS5dpW-=p(oWEeCoI}84OM_Q6XHuT#t7_cr
zoIs#eK}6Y6ExkT1hxiEdkYoL3W<p}Cg(_7#w+D++mmX+?Cmjs>>;b`~(=xePo4XPV
z1FjlhLymB64f&=DlY5EuD?E}*N3G&Bq#J8clj_T|yM@YZigf5*<7|3FWC}GwL<ij`
z5g8jJTfBw4_91(i<4s}h$WPeq71|<P?c9xxYGC41A=Cyxs&tr4a#G|E<b{N%XoDuL
zJFfCGOK(RzaRi1lIhdo{U0y8%Yb_uJ$lTv%9qdsyAgFC55ThTvm5iuY7GyI+#_1p&
zi#h^RaHvSEhub=Gwabs-Ap_7JxfSDLNxX_x?bGWYwuvzu-{5K4>mehARG;A}T%N(n
z@C5)clG08Ac|$VHh=t@oa#3TFelH`tIGsSmUI$4*|42dQW4YAq21^zvBmXWc3iV~3
zET@l*><4RLn}Bm@N3&}kNyKjXCKYj&?rq;Qf;GXh4E<QI)z#cS`{dXGi_|c!dn_co
ztssN7=DPY-eUXUTxTVaF5=U+-d$)Rn!A!8)xPwd(6Ry@L7nT7d_JJ0FKWLccKo$ol
z-|?+QLZ4#7*sAuUFu$u=PgqCt&iJh*p9=Z9ot{U_uay(y&!5;R1eRtU#ZPpoM8xO}
zk`4|*(0f@-7b5OFEG*;b1UwJQeo9ecP|kEZ_qXywSrRgZI=>?QJxgd#FEqCx0Dv;&
zzt0lKpDaZu8#opbqlcW|X(6A{g%!r2HQCI{f5*zS<9u>fz(`i_2e5g(y?`oOwUG^f
zEX4PkeClGszj|uPhq9u?z%m2r1&DPG$j<rL!QJmXT{s{G%(zwAFiC25ZOC^&U8)Jf
zJyh@xurosz(i)fExCu*Z5a5-;_Vr0N%s}%f+lwxda>z)2NM*kcGtSBjxI|$@glg><
zV@If6Oe|9b!@Dsh)lq6%`f+q$WSqXRTD5cq7|s9{3=SPc7E|9xd`WE3@x=!Flz>HI
zX#cyFF)y(o`S#G`LL)GP<9hDc(bUhf{j{-M*G`Rgn(hu9tfe^EIM4A+;7ZriGC0U7
z6b)7EcTbX_%c*8%;*9CN`?P)*CX&kqvA=*cdJ)M)!F4C2^-|o*GunLPSaDi_n=OaR
z(|8XU%T2|}Zcw)Shk;4W3;mEKK`E;bZqxiV95Nos#Af~$$V@@sd@hm5+DxiA_Q{?|
z;;~S@;d}7Hl*FFnva#w{oD!NsHiwYHJL0^+%&SSf4noNdrRzcJe<I^Qk(6U4IDD?+
z0H^XBT8CS5{PSk1pY;A0b3Eb?2;HBA`q(MYE&A}72~oOR?ofQcy`kAJVbSUd(oQuD
zm~VBd8!#G-MK`6b4tZeZD@b|A^3HxwZ;Wr{i$;DF_?o@{$VUAJ_<LCPR0n<~y@!Po
z?B9ol^RKX|DmbnZBX`_s5ub5{3_Ve-s1#Vw6Vhs^WaNYkG^@ayfwU>U`GPoVR@xQa
znocsGccgnOumAWJkKfJvrKEs=lm=whxKiF|+DPfC7Ed-SwIrDgx9pI}>ALw<b;8<c
z4X`PL%v@6tbT=ErvH+h~Jn96BMoXZ};45uExoR%b99|?vdFj*Ns2;)y%l9ONyXamK
z0A+`W8)YO;A2kztv6e?EbzHBJk9kLe`8{I&Vyz>uic#&r3ZkJcOh$hf;(~*6V<loA
zWu)fo6MLVMobKVS$#pEZKiE8yV49}5Y*3+`QGteA0xHACjK5|zk!T-V9gSBVDg*`7
z=Ck30x+CI5;j6D`b|WT+vnq-eh6?&p#=%PFjgZD7t19lB$VZ)2Oe<5gWd&A4+>LN!
zZ8W6wZJP>+4(pw|{S}4b7?s1|*3N;dW-Dm8%LBsgSwhl_eh8!A&tkEY%+F$I9(8l%
zpYBQQYoo}>+yauVKFFT9@X*|H7gOto2rgddAZ&>QMlT^y5ES?;75E-d8NNaMeJVR!
z@N7T)7iTzJ|2V_Zi!ETr{`0(#Td$pRnF~u?a>nOaGH+Pwb(e~W1Cd>>Xn6C}>jS%K
zo5Cx;{WW|0DWBE%v5L-WGML^wk(B>3t~Uc=a>O#TV51Y$2yItdA~Q;}-Gt_Gko;qY
zZ#v<(`#1=*k?BCmk}~Cr>~A%z=v5^yeR@9+bFv~cXxGs7w3-8_tMJsd7%$p~s%@6?
z3Qb7QoPYB(aoJ69wPkP|QKM89$TAsWTF_0~Wh8%}JQ+lxSDI$asq)>OC|Mixm-UF#
zT8LR1;yWNJsT)z<#hL3c!CE8rgQha$S<^V85~9~>Wk_PwwGOfKqG(epWmKSuSDT$Y
zds4Qnkd7ycF+GWX;TE6ZOSDy~sQJ{87_s0Vi+rXb1@ntymmX(B;OF_^<3Zgb(N<UF
z(90E62iZ679u?sp?rtRQo^{k5hG2gEh_Y1ig%udHNq=(+XQptbgw5#;@(!|A?(I-d
zwlj*I<1geU*y6)rm?zl|tmoSoXN-}b+AZ2vJ}F{kD?kWw7Zh5^jf+K7=~i2@cM4|a
zwka~OPcHd|6kg1&;i*mffTb<su`(eCg^uBy4#jzY!S)}bC#J+^bwox(OsD7*7qf(5
zxroydlXtPyC+OmV04){f1;fEUK?j6rWB9dNKsVF!L-B|2y>B_%@EMz~oGYv@L02>?
zc@EaJs^}*&S})DL6YMJi4PZ<GwgtXh(_;Vg0VPCOo!Vz?zW=beJ94xAmEv1!s>eA~
zu3aPLP3D^rxzp+7S?#rAklqkW=ewS*`^E3dxTo>Dis#^Hj`?8o!NBsC=<f*yONTqK
z`!5pu*ZoD4Q-BHme<Go5|4b-dIYghfOovERQx3)Z8`Z=EvbG2;ELnj_rJEb^pk1p)
zPNT?nr`CvG4yyk-p6{7;s#Ppaaai)CZMGoGj@bK{#5F_J%KZxGxe(E^mdx|?ZRTLD
zT;q@niBeu}GQ+h-5y2HPXT!qs4dm|;WgJp6t9kE-zyBBg@UL4zM63Oee#jDHaGq)>
z6<(n6u}ob<;S=TUq9lv)zxv^df!uh1j>&pE7g5|s=O`gTw|2fpfK7rac*RVUvVDM&
z-`P1Qw$7l&_^0Z;F8{9Wr%O3O+bc^xKq!AeJ;YfSo=5Ov1=z5C0hF@fj5S&7RgFzJ
z0sL=X%Hf=^>;@>qUwY7bCwxN0xT4E8WwfARMij^)Kc4wKG@}LeTNuI-!MzZJDFhH5
zo;iohq)Y7?fl7WdDV!Rr{OQ>Jpo_(gpzIQ~Hc0vdPhG4RspBbs&<ff9;CZS(PW9LN
z08;{~JSy4n#*ROF({Z~5TJx}Vvnh^bt?`=SH|$!(pEeIq!Mx52^e25ijM_8gdZloW
z{+O)E=%fDIF{!Q7WUMImP=qOxo?}Q=u%Sp>>;wEp*gJJaD+-D+0f)if?frlH;l;HT
z0%v8nso;~8*{5RXNE0^>rusAtoiXGhEmGICoAx0WP4kCvMF*BBhZ^yr{*RFBJzNgD
z`SeHm7dkfe14Hr)^vjA!)3Bop6HL#&$Ir8%X#5+xg-uURJrdkPKQEd7KFOFFr#1gY
zr)2%>-`@Sb4hi$v1`nTb$7I;mFP&_C2a^~AP}t8e`FApG2Rs@aMyozv|Jo}4@-S<q
zruS(?qJJ5@6%9(Kaa`N5Y2}XvJmZqdNzd#TSu!Y03DHieJzDq~KZ_+L$;!d##^<Sy
zI9RTb(%Fdh1-mzDa6s%J#8(WpG#_$PcyE-I+n;dfuf<hJNcBc->=;X^Sh#i98;I$7
zCpqb&m4`5mRG?93A0$`IUe$3kpkAL$a1z$fdT(6iMiBPRHx*M|PArBpR$YPf;5Iof
zS_p*^t&Z4;cr-l^Bhu;G%avm?OewHxM!qiC(sm>a*$!E~`IouqP!7RS#vjXfPz(R$
z!*J0V{=vHfGn~;WHAJ8;1w%-FPoKWN_7iXU<3V!`m$NTb-`(9g65`u7G^HS7!J=;$
zDtyYOUHAP~F*KBnmq0eLOS_aLDnh~`=>?HNqL))2melocyOJRDj{<Sr(9g_%UE92+
zp<}IHS#7EPf`augI~~LcMXnQwnCCXrC>`Z%>8h24H)~eDZMEv69h0}^c!~$NhMAE2
zcwOQXY2E?Yo@4aHkg@4nVHX2qsHV>>SCA~-X*weE+?ManE;=2dug_{g6C_Km%L(=y
z*JgaTJc#kvx*nz$cn^e0(BFL_2N<SNMJdQ;<TsEklB#rJED5?|QSoz-rli~uNQ&KU
zWDuWQWwuhf7Z;h}x?B@M`_kSyApP%)Kwo!WcXPQ;v>(;FCi9KT)mh=Z!w(k>t44A^
zZ?qmy%v7^IOI6E%@KY~P%zx-k<Hxw>@p?^>c?0`<LIuTSqHO=yos#vhzfb-@Oz6|K
z%~OYRx{xntQ&XwFdX+*PpL3kVO4Oc4o5Iw&(P%A8eK5JbqV3Na@RveRfnuY5r~x5y
znexV@JPa7x;uFhehWZ3fad~Yiy?Hg}b>#94pAV5SY6*8i8OsAPXv+xYx^C=a_X3ET
z=o*q(^eY^V$x<+-9Pzdf1y#HOGv0>ff*nMWv!o)EXLdUzeA#zwZ{>#~`UZL*$<CvE
z4+nUa;tExsLJV#r@4KtBFwM0_b5Fh&%r_@hSO*X$)ahR5YO4K`C9NdMeYwjYu}CLo
zN)xYPyD0$ZoU0F6P&}R4QIUUmB_#1wCZO<&+iWoZc&F`%eVje`eZB7{8+k*hQ;7RH
zk}U0>JIwSBM2=ZIumNHxR1O6(;rB;AkzKFYDso)%X^Cwi-G3$2;ZH(4{zpPH|4Qhn
zDUsvS>#ZTO%nXkeRODUbVVGappM>Jv)J{Gg{7{3racx#wbK-5eTV`k808qLNjKTGN
zGqVI?@fvFvjpDLQLEec?=L&-v7=tzKVQC0SvmUb}rW9mrhTY5p4N>dr0EvaSgarge
z!*;H+E}CP0rs7P~`jbh~_e|pTVgKoo((gS|QWY;Od=s6Y8{#|$9k5UNMGw-f@Z<k>
zKnwp7P@`|1DOJa{*Gq#%yyuG5svX|SHF~x`16jOn4_$vhGbX-5{XL+oVT-l@RSEs;
z_eg;O{eK~#*m(1LfSkqO@6nE*Lp6<RUH_9#i1&1Uc+c#zusnF_W;czOXAyvzi)NJ-
z8?Vg}kdui{JRlEZI`$tHCzZ41WO|R;zwPH?D@(rM?#a)|OvJwRyfm2`_!mzKQqFsO
z+9n^32f3`NHef~#tBK_X9eAc+3;jKzm|>b9|Eq-l6a4?@i;e%SCeHwD^8Y`Yyu!Xd
z|HRsR32m|K?7$LFaGO}_-WFisEg-V>ESam2^1aj9IHOBe7P5MpLnw9qRI31Xg<wo-
zHP$X1#b=3$95gsa*XLzs3B&T5<{gw~JXS?aiO=>SEPP-L(sY~6tP(ImW6TY)iuZfS
zxCFqwsJ)f?UKGuK!gZnH<^0DQihYIq-u5|>(ca_f1iSvP%i)0mYplO6hgse)huI*)
z{<e5JayuGI@uTw5YwD@6$=BsUb5FS1(feBsEmrk?uc2}k3-2|Q_D>CE_)j&oWZ1>q
z;lF6||3Lr0T@EMx6Kt~06UHr(76@oWA*pRDCtjcIQIO^w(K=LQa|H$3i<y1z-@#_^
zFR*b8j_=Ljcn6!r0wW=;{~2sX$v>v~rk}O`2e8q{`X|_A`~e#SbiBX7=EFPKbaT6W
z(B(WdP7Bk+=bs$q$h^8~wv6VL2Cpoe=}nbbl4Z}dEUsa@at0q&yFOGf`~x-ylbv$S
zsaOj!>3@OE*AdlVgd@YcNC)JNFNt+o4s<s`=c!ez=(0?@))`ga6m3SOjN`JTr6sv*
zZ$HM=<4J|^`w0o3oWrs_Dd!8+4Q@WtVbs3i6W3}HkQb%KC7S!V>UBCE=PrMI9fETb
zcQ_Y1B<Nm3i2+3&2=@%7IAPct79CoXL%B&fbm29Ldif-YdY5od4|8UaSma4=CFOHx
zH_&13!xKjiA4J{SyS=qT*=vRL!&_&y_s`FyvS@iTVSjjvOO2*vgf3@VH=Rwd`m(pQ
z$^HQwhkc2i@;0`ToCio|7D84f<Q;@`p1wGeD|nXII2~bmW^=>$bh65Yg@?R%`fZZ`
zkB+whifiq*MR9j`*FbQmacf+I1$PSx7F>h7ySqCC3+_(v;ND2^;BuSnbMO2Aed<-g
zf};3r>X>7Gy{?ehN5ULjAWCo$GNBGp%#3Q)AqY&W&S$wLLb-qOZ^|-Hae^!0_uvZn
z2o_A#fB`9OQvjI0(Xu*ymF)>pKmQDbG^$o>u|TK;ICVQELG>?zacI_m{D5$}txF2<
zbP#BA?prTiN{n)Tmwc@0R;cXg;Pzhyah(Q;6<iR@-hvC_XjpJT+zBp-|3wfNEH0nE
zmxO?b*oXZ8>zi`??IvV-uhj4I#P2@(1U28dHvrGq>8$PCMs~SBfm?+)t!*D{Ms(Fi
z%591*Uwqt;5+&ONF@~M4r>m%4;iw2H5c#0|KfmsY_&)Dtyt=(!%ubQ}Jf13g$gX=`
zy?pQTzS}z3czIdNczyJ(er@o%nkbn%^LgA_V<q?Td<Fm6<MnW&%j<Qc^Z6ho=JoD+
z_VG5SYZ>+F=CGYt#QWvx(Qv)<`TBd#`s>5#>|Wp5neR#*xro=(pS6SMsTg11$HUv0
zvyJETy?jGo_v83NugBx|9AD2XyDe67^16$yA#&fBmB*L9jhE-e+b(Y(p3948)-&O=
zQ{RWfgAI`%_b)5tKI?TQ8&?xUw<12b`-Zb!tNI2%+#jF68~%Fvp0n|KHG8<x<^I6v
z`+UAduI#HI;&n^sp5KXk`X_?;^>~L@q~rBst?Tvj-q-i;;O^z1>-E~b>(jt2t?%Rc
zSPARv<3x>!$l4h1#?!;8NY~S=i0{kRmGZ`qGS+IApZU%M8J}MsUS<!Dr*gWweIIX?
zb3~pVUbAHnwbZAiSGA~5+0;b59B%$>pG-x}9;s=_CU<s!d#Z?gVvGOr<cechg%gr=
z8Q-2?Zn!OfKQDJ*lC&MaKO#?3)|p=V!nI|9nfy?Z^iUfQp5*G!_I^u?$Kez(LBvDL
zadl=}4PVM&VIKM9X<0tTK7F6{W*_{c&56~$EJ@_S*5jylc_-y{MqM3L9<v_*eJbWG
zMdpX^?fu&AhR@Ua)MsHIW8a78wOJ;X=P`Sa&liVXFUPaKFHom&IqL$i7vAdLk2fOO
zDBeYlat=D-nUg~f!-w9PDE!}I5~vT#Gr1@yCoD@uCqX-j!)ab5Z6Xa*IdJ?DAqjND
zI^Lh=hnKy+GT^!9WcB5I_w>DMQ0Mb4`C`c20!}Z)FWpKDP7k!CdO0a6iS1BW@$wQ?
zDD22ueFMZsI!=tBZA`@bp!PwW1~%deR!h5AYbhl$y|iv2uLzx%$Bd9^i<fDO5~f3$
zrZoD-r`(*H8rI85%T0bEMd*BPp{GU8apj@kD9I`D_RFEg%Qc7!hIdVzImSoG$hy_(
z>GmVxfmEi)#5@Lc(V1Ndu)d;BzM@yNO><u|JfY-Vi@zPu$}4vMu>@4z#!wD$!Eaz6
zm1(hUOxs?-frJtAbF+<8^!Q5WxCnE4+!UkVpSQD=!I;yEk8T7<Aw&yIlCIg7t0QA9
z^^z}bJM-T!;AMBKoeQ=IPgML^nPmk{CI0%&N)-N^aARoosi-yk;)mshOp70c#s_c4
zdtwx_xfB}3Xy4K%#16(*-tkR^g;-8`|CwPVpU9pkT1Lc;;cj7~0ypfuYB}EydEbt)
zbHUR0LKns4OIbA=pLdG3t%eXJ!ltnK9fFQC5+7DjH-&_`6o{zrB&!mfIQ0y8ah{9%
zL+VPyY6lUBu@HWw;H-B0m0u1u3;1?0G$+wFJ0A<StdF=A#cWEL%iN%pa3FMMZH?+<
zkts=?m(^28R0&4gN%<$h^GYwh<E+P(YOa3Dt9s6>ni9zt|L7?$-_==>cb`tK8;JZc
zh}z_CTVt8pwfddtjM&#}hO3L2&L+(uxMBV>;C(w?9`SdqynXh?;6Q~zJy(i5=wINk
zOc7a}=|OCj%O8S<Id~u3jir4pPMnBe?9ouahF$Thc7|(NRgbs_x&-UT8@R1{4My1c
zdN7QGkhz6TccO>1o$D&x=;n;@$L}kC)WP~RtPy*7D3ik>+$41G&Wpq+K(@L6&e`N&
zza|!_Rl&jUeMAt3ICbZT?(8Bj<6VQ;fS)0J4riB6r6L>mOTp!@o!&Dabc*C2T{@Sk
z&-G6^W4#l=*o_@dBH|poQNAYG3oh{DiQ98b@USar`(jA$w;6Fo$m;IsWeR^sJ^uTO
zz$Cm;#PpHKyw+D1i_EWju3K1jvhS=4^|wR+h(<y%*|A?hQh<0bk>(L*9THxhnuhV+
z$}gF7e+NxL2v?F%Z7p(@G2M3@5B=Af?EzcA0>0nGC)4`=D2R+A$Ubv@@as>4<EqAi
z!Pjh6iy0q~7-X5C>iK@*?||5u*SAJBID{Z9MU+!Dh~ME(q659kd`<?zo(&ns1X~m&
zRXtbWSZA=}A9f;(95;_>RXD=RT#8~Xc?1QRx<~bp0DNL09KyY>&gyRP57RdqiO^$k
z6HTtS7`Or@5fZ+RE83mMMrPWjQ(d>BF&Hue*(<$^$Sx|3E|3*=>pQ2Rvwy2&M01Dp
zGsEda*6>eLNXg>J^vY+m?wqAW^X>d0F}dz2<rijRFApBLjv^U%{JN#YqbJ&+1g)!u
zWP)6wUnX<<PWu!Jd)X(&Jvr!;2EL|W2o85vBK?$~puPzVJcomkB>WLFyom|CnK33V
zuY0O$ogBwk2lL>au$#e1wHynz&T<+G+hWMyOtAMs^EGqSzPQZ3{)j1pQ@4DB1Zrw|
zW*_b&@v|>@8&#6=ZyX~z=x)S<H$l+oTPcZ!)q(K5wuyC^5<7|>+D=62#vRZB+DJbm
zXt3S5>H@gg*;Fm?4IIz>H|63;LU8sNb%fzMFsxBXOIeD>%X<9f0$amKV_o_9x_`Lz
zWVGB`%rpe`^mRlLHlfwej1*5kbMi!bit@^fjT`SV{{dRU%3B&yF#%%uhjoH1<D)!c
zJAR6t#-H(U8G0lp!nNzuqVsXHqVqMfiplUZkCX?0V?i-UGz+E&(WE6wZSMSricf>C
z3g+fKm>IuQay80VsVjsJaKa~3Ku6=Il*JOKXUaB#?C3JqE+C!p7ncsj7VIYfyy6eL
z<xOLF#TG?i{f_)|v+9-n_UThSQ7}J6dTRsRjy9JQ*-WHi0BI^v-aFf0<p`=#f;1F%
zpK0?F;B<u>u_0Qj@l?EjPa0iyHG2YN8`B@eqzm4mJQ|D)@6vE}oN-H+Xf??F18h!_
zVPv9RLvAGcj{c5j(o%Z;#NIJiHEw%q5BEH{Xo%ROwyW)4htOYj_tGYN3EIb{0KUVb
zf$wJr$;N0Bfoxw+O4KKu%okUB`iyckg(`hfA}5OHTCRP-PXc9c!H^@})|e*uuc(O}
z2SqQC=hD?(CfJz<ZW4Se#G8aXY~|i?89XJve3u|p-#N>b4A`yb_v2Zvw9@I92lm*+
ztDdK)kk8|=*PQTeSjU!=1vzyzGyY-Eo+Gm*WC)MWdU)KV<>FY5R(|-)_6YKqQ=t<F
zmru%HuQ<6`m3eIpWP9|#;=+}{e;VFAueV4JB0KT3*k{9!Fg=+Wms=R04pc(*q$n&y
zNrww5kEQ!<BAy0V-1JMR=?+~yrtvj_-;IdkH>)h=8-*OZcWUR5D2^uPbcQ(PQ>{c}
zwr}<G*cVMT`7`c5$EkTI5VEYj92CMT#FlMP2N?LufO0{6jMU;aY7goWPTPi)zRr!c
zQaXWTHI0MkfGJ62d)cj#1Y%{!e6piDu<l)R*w#LeAdQ_ODVHO$i}4zi$e7H7(sH}J
zn2IdkTs+=X!P)*ijC(Gp20i0no_w(p8cCyGm#80G!_`J1dygxU9G^6WqBQ?2P}QMU
zN3cR%`Kzd)69bb&t<W!>kza(Vr7Ta>9^IUT<!@&9bvvA8RNY(JHm*^|ChJE=i;KY~
z$45gFMg!Cu=<0EX)*AcqQa9xOHKEv#`%qMAwkWS34=_jEes@4)C+!D7WslSkZmPU)
zp?%@j?@&E{pfEj-x9zWTTF+g6*p^(|zQf8h!OmdQUim@YN4~+F8)Z&GT*s5_-pEcC
z=xo%R5Wfgb>DuO&md7>F*T}TV=!;?x5_K@f#aWqRc|xYM$=R6udL=JiuGzyH2M%c)
z{!xTQ<An|IiFM4mk>;`C1Ebpes)H>tE=Ilcv>Ur*2-cd0claoT??kB5jIbG*26!KE
zivSVS53yPtz3EHvWd3#NfSOU@#yj`RA4uPZRurZW_;<|e>2S{cB$Kl~;IBXYvLFkK
zEa3q=)D;yg_dIb%97+=8In^hY%s*dXgFD(rLMjz@9|hylpFDDg;q|}fD3T{f!c?XQ
zU2s!lD%6L6FO3rXg#aViD0a!*_yy(HctPxkdKoOK=6aRGR$o6(h!Q0tLM8o~a2S&5
z%3oc$fJ1WfO$E@<3z<=t56`nUhuU{XoyBmDW`><?q1;$=$RK9u`%v6^@H`GV$KCxe
z%gMA=C=Km2f=0tC;@fkTOhmCp5|5sdyA7x*XE`p2oEVbg851}7m%?RccG4&*=d(>^
zsAQg&KA5QANMeUMhVM<nn6H3lxbkL%j7AC|&hbo>v@gRdk6VB{CIeRX;(eVA@>ch3
zNvA93Z|M`PgveT%@r@QVK1Hj@yv?e0Cr&cN{up2tpg7iR6OI8!3A&sGxh@*hlx|wo
zxA8ajAQ9SL50LnfKl5^JXyjK$?dF^DDv6eIDb6_?jR0?K?!MJpRAz=Pz2|XrxQUJw
zO@&U^*6cyuWb@==C)4_Bv@JW9jDDRK>lwU}bkCp<xkyi#&Pv1YP`K~T|4sKmA${4-
zyJz8cqnH~NcvSAT)Ls`A>{NR?j3CKJ5on%^U5AnE9>|ux;cT>B7Jvr7wC>Ii!Ghh$
z)XfnDw?d)|oyq*AxqARg3;CaH8xGmT1kD~gUp-#%)gfCMo-Q-e<^kmo%}XvC;iyo@
zA<~2s4lz?W9G}jnoqq&uHC~I(rVxaQf1F=&Qs0Z%LZf3$@qp<Di;Pt00lPO0Il=+@
zFWfI^)CLO1jol+qmdJX{Uz)lnpw1vM`Uq62E*nsKbx=N?s#dv$&+nBsopaUFXC440
zl;lv*BOy}QiZuyPztndxL*XOqz5mkC?FrG(2G?IoqE@CIIVxnLF=2v}%0P04cvcst
zRyaT@0~<`w4k6Dnf|@bK+7ZZY^4K(2mDb|T0{ac^oN7A0pg(aJ(4rI6ldv2`08pky
z&){e@=SLq_x!0N4tkKQzG-Dv^1G^8d`8(Y29=T?1QglOlHM&eq`gOQyE*3%!|2{XH
z1b3U!$83$m%VGJ<k(Iqfh=GFNWC+#qK`WFcC=3R-67=`jo)YjjYgqnheD|TsClFIQ
z5Q|Vs{9zKUcCPtwM|0d;ja^Z{4;Sd`zfXOG{%CyZx1HF>BB`0_7_;54Y?V@wPh~B@
zZ_7dA(r-@9v6;E-S+LOhu6MYqp^(7Z8&2<QMg5<AVDE)q+Qg)NtD*J-k!{;Uhb5^g
zX>9goLw1kg_g|~jLJnm=&=k0WtdNA7XY}}ZjfUA*fJcy!*?3|7#I}LfBi}Iz9)~g(
zed)gTut>3)M(}5Rbc|0YIbf<B2Wo#_Nu~UQaJuX4RBazTgU+DFKg?YT+#{0;zx8zH
zmlJq`1tA`w)=7|I7DA+;bL)+>^ZqYg$7WqNEcHB>P6*Xwk4fuC-%E7xEgdijI(!`x
z<%_|q22q8~{LEthU&?kaA$ez4cbe$wOz(5%%zq>oe>T~o;PUAy{bR4XJ)$z+zbp}Q
z&hK19G#?XLIY`EB8&LtC?x*+-<_#>Pd?gfgwG>QsP!Rw(`O?fk0d^9vMSIi6KLd6h
znqrVW7l2!<9Gz6sTL74^1mq#=>#_1FhV~IKb_Oku`F!z{mlY;!b)WRu-EW1V<DLqD
z%~*UdJsum@FO6bQNr|2zpz*T+0i*_N0p}1a)TYtbhLa9##N)<ryl+N>EoXW9^aGqA
zIywBtBuiRAxhyqKkD06CzZ)u>a0(f@JI<T1sLQk;euYvR@2{3kuP0FD%HyiM%W^5}
zEs(D>ne#_{=DLZLPyF<xs~xUk%&7M7a}z*^YxpnAkx0i-4IBdX#SX;*)9+P;;+VsF
zb4IVYgIjU?R>SikmGJmJZkqU4z}n-vq5Bc^srb8LC>Kh0$mpAR7eixPm$mN0(&1bj
zZK&W_#Mb!9FHaFS8`_p5H?e*QrT#s&B+M$ty7ZzRq^pUaN@?j}7evd1%RDs?X`F{J
zEC&mE&&-5NrV|!4TWy3GWU3I3ii{kHU!)U5u!ME?)5G!KzMKm;mk)Iea8MDl!DMav
zYDA?hb$V78g&b2F0<}k_g9f1|$F&B*V!O;OLM7(vq5638s_=U(mS8q!G(IAxvL8q!
zt7b~f{TeFBf3NLdNJYVdt8y7OP}ED!;_%=NPiLb%E$bC8lUClmvVDR(;eg)?$!u!w
zC{-*O2X#5u+@BNiQMQepQ*viHbZhyCyi#yQ1r8)_c`cGsQ;<y9c3~)*f>lvnr)W{w
zS)XXj2{wm*2c+(pt;y~}YclP37ILcwD!g3fD^j7RAmr{b2_^3Rrc$H~1h`fdkOr+?
zs%cjFHAtgFVbLFvo^y!oT%$o%KECcwcJR395{i4u7M_}W%KbpS@Sd<Hr489kSkW!F
zfkQ%Gj{2Lp!b?!e4|CDpcVZAGh!xjB?GEAPq(VxEKvlmjZ+qx1M?CD!O9E(J!=s<t
zgyhuK3Mb(t^QH>}?^HuaIW_w<&AwzFUIr}cp6zB|0N@KNv79NA>*bQ_IShcmyCvI1
zY5{`M0f_}fayT|__Yg)=JWZ46W5ZQrItp`bfT_tywlWREu1QUc!qwhE6hsbsZP;%l
z81-_cssrMhW#XEHpPSGW3U%mQ*gedKlglB$(AWH7+T?(fIaUr}3`s*$mQAg5Ul6ox
zxDTqb)I)aM%h@<j&Q!Gf5<W~y=uZHzQH@oh=@9v0Z&W+-L~h)s+&uRebYFsmmPs~d
zyMvUTq_uM{gNrFSo8w4u<}jq@yyc325Q}n=Nsk=3|6X2b^6l*BkLwD5f_*;>O>s1A
zWaA<v<DX*!Y<YX4k611w**{PN<@cDn&3Q3$TeZnY+U%zH7WTf`*&j2hZjTnOLt)-*
z5wfz>Aqq_uTvwP8Y)p@YY9oa2R1l?Vh@Z*L)m}T<Ee4PyEMB-+52om*+;ZX8$KU;`
zn(}iJ3onv<o|5HXPa<$16dw*oiGKg-Mo^1!00REH7ORnJp-*nUkAn=|*@!9uI^!|E
zzJjk)BTe7nXN!KUi=vHwwqbl6P3PC+hP4N^_@5unca3PJ-?df~bMSSepX@S0murO;
z&G9#vdyIJHLSrk@Mt4e5%4|$JCsX1_48rXm!ZyaH3;`#c9D5}v#u&ybt)&L_-(exJ
ztLf}7^#|LvNlR1oLPk{pj_Cn>R`T;L9AxmWwBcNt#LFoRGqtGzjOv)0B91kP`SN(`
z?<^NhP6HMVe}a5G(=RF9X{F<j*@y@`&(5Hws>=O3KZw;iFMNMD|9y8l7foR|eOWb6
zRDB_eQU#?y`L~~+d<$mMkPFRmha(5(B)MtBMG+NcMO+_N*p|(5Yd4RY&&CE*7eVk0
z8c-h>N6NCSLamHx=W*jh>CEs90QVhN2d4>z9@)VtR;s<90AWPTsz8l`!|@YeMiuMz
z%I$Y{^pdc+-O8`_{pWzmBtxn`2>9KqBj&6xXdgbh@4gr2Xn@9U&7M-r6QFKA3LI0l
zNh)GpD|KP%<%o9)t696V<LT6(QJB}m`9vEmoDCLmBRWn^IaI!8kjoT*BbjQ1_i?u*
z%b1jR(6Sa_nhYW4J-cRcuhiuEuTcUA3lmG4x#I2*<|IJGCKoa)!|JgJ|1tJC$WIjl
z$aGH#;7bcD+xW&>#=*(Kzl1-1F#_P(FqK5u$p*iF995&+>7ZS*@hVfvw#l?Zpp(|W
zDm9`W6oyZBy@AHk!i{YyZ}959N@>0X>XA%T*V9%C2cQRzLE89T37kb$$$NeB3U3q!
zi^17N{n9=F%;&sgnqq=5v4g(Ugq=^<UM~k+;&p`xu+?>0Np>IkZ>bTgqvBd?kmxUY
z40}#|28oste~@wRR@aRujYaqdpQ&7*3;#G48PxlMpt8@dciI8}GY(4DCtcXWYNXM`
zhPe;!g)FDzq^VXvIodOM1)NsnGVxQ25q{*sQ<QkdYFoGFKXxcW5s#H`_ws(BkyAAo
zrE^o_en{ZX&z$Hsa<MK05;*CNefj|Bil{bOC=uJ3f&=-x0SRP^J7;U@U3m#IeX?^k
zqMDG`Q9O-Pb+gc8P^}wuu2Lz8|1P*x6M@VM8{I$so@3XaB+JsXR)fYNiMg<<AIQ`h
zL%dQ-)0FEWN>>5Jp#$r#$DHtiEG-hApEPxNwxhZUiuQ}%hkad3O9&-h*|mKpqLKUS
z@5Gxr`t)ITgM=e-0*XRvNPKD@!p9&4*NUS2)hdN|FIqI&w3XiWHsA2+(`GV-4KN-B
za&zZvBVutIe--39j7q}OWh+gy1^@Dn!ookOMd3!Y%4{}VIW&RbjSm)Zyvh{CvGy6<
z*KyFpSP$V~-l`m*#vS`5hfn>QPKORSb`h1Rpj->*22YmfFm($4Ad!uAI~f7XjKm)s
zoO(AkC)f_7xPxFafcLl#qZE4PuCT%hq{uo5(ib~9J+VGG1iON5w+Kv_<h3LuC}I=*
zoQD*u5=Q0$aM;_%WDlOrf<tesm#`;A;-xp4&0HhRD+F<@f_<Po<FyD>-u7}&|Ac&I
zojc2K^#qgTs}NW7-~^}dsd-Yu!z0CC^F-n2nuv~a8`?BI=eU(@k8S1x-2f{x=XrEu
z5km)l@&-mx_XhF%#69%(`n`5doztJ4)K1K!ICxCl5-%Pg6|2y!Z2suvZM7<Y^yK1J
zYCh_gJX$V`hM|WQ4o**GV~Iy-2__g{<hUV@i$ylhzqyB-vUo&J?`jD=n|_DV2~EsN
zveL4M4zzX=m8+OiLuHk0ZjzDPku?SjT@HEd4jCbgEL*E!wf}5|X_Lqdr~NwDk*3fC
z1^fF{d(HSwN;+1rTDEd^Kk%I_pE0qTca@K*S_O2xu6MGvTlLZcnQRpGw11e!*zzCt
zUKRC)<bHzsW||A^-zoLCE|HjYUqyqLwTBJzBW<)bM|9q+4oah-avWRt#C;W2u9$j2
z#y7Qj6S6Qke1F~rRFNU1Wk0aZF+hzt6QNoaiuKEB0L0LR+AEhJ4GzTNxqdP@^3x-l
zjhE`=EC===Be**L40REGS7CfhEpOf=^KQq)K|kspHZqpb766SD9Aexd_3PoNCnGT}
zi&OYHGbWjv41YZk`TP&rxehr{8T=!pGIgG8AhOF8Tz9K`b9or;p7yRBgb)poFS`XP
z4!a#lv)l!n?Lx_?V7GTiWb6h^*0>QDk*tcp=kmB?T(NR%_OT?MIMfvF$ncX}@arFV
zr?aCva;M~CMCICc)&Vb_4)O_uBw(5UB&21g(lHZM9_u`-s<$c3Z49kbG*qd>!i-8E
zdSSErtG1W+cv+SBcHf_-fsP`U+j1fZS*$5ahGM725uQ$uPH^0lVy-QBE%&s~`!Ia5
z!7N~6G5!kGt^6YrosGf1j>Q#n`i7+{b3IsJwz8b2(gRhi8Sp>H)BTtiGWYOUpyqkV
zbRu0@oKZ)lb<Ge6Jr)k9b3xP}R3TH;?s*%}koZ|#X~@m3KbfGr;n;iD<~~3FU@8w|
zTN+X%0DNenrp5rh&4i23g8g@<BoLay$!EQp0Y8<IJ`S#C4i{KGnaw4iJQ*yAtwTvD
zY9V)UT;JY|j2t8$C3cFZ8b{H=UkRnWVsT^#;C+Tt({a)?;?w)I6F2Ji`-iQH)i%Di
zGM{e{eDCs0Q{Cl6i-WuON|f>{pM0L?j{G+$t@taf#b0-@)ipg)n$_rf(Q&9C(+M5d
zt(h+?ZrAKSMD1{Y*rS;iu1zlNtbiHuT0C~QiQVEWt(gX>Zgft+!#*C=@iencv6SiZ
zKYr(s(5&P&p=s@`3Ue@+?InP}u7hKmaEcUqAaFge7Tc44HzalLf4-zZ1j2H%iCAQ$
zzU%KiM|)p!QA8OQvGb{yxbIyC1vSQjpTL4>Gj4@xlnm)kl@w{}m;2c|n94vNh7(Di
zvs$r{KOImK$wiP8M;#;Agq9(E>$xRD=EdhEpWwm)d(IxFr-eqSt<!GO8%Bl85>rT*
zS&@NcmwtK+qV6ooV?;4}gSgi1aJa>E4OA=G8C`PFI~-Nbax1d~E;c_{r0v7;TL}(8
z#M#UzvW&$0#0oS!pWrjJH)XEY0TdbBkjs_)$843?jZrc@JI{ioscyp62GKpZ(VAN1
zehI&o%Yi$?rF@_zY0WuD&@*W3++-3a6Ogj}5NSWmls(U`^z~ywB<h+MQNz_J_j2hJ
zBM9T}$MGZeE6Nk0hvqce9f@c1^fWMAc%Eb{99t+JfXzXJ<5Dp2X&A2S0CVyNzqAt+
zr!Gf~-Kt9SQ^s;73U;f+HJ7G@t*F}Vr4?+SaaeBqvosW?LeN7p3A9bnB175S-1TZ^
z56P$Gn<&Gwk{RvsnEaK8(t*!$N$<rRM*Dq+;n;2@nl~bXr1xzcMh6q0Kl?nS{hU)2
z6;@90+rB{|@%H2X4lVKrazR|6Ud<+HhQU-c_}~tkCNb02DS@uA(=L&HATxCY(T9_H
zuHW9TM9wy|9#g7UNyl1|2*p#>*Ap(fwgJj@^Psi?CPcFykYemaUV;L=KyUz-A{)qb
zs!}%{S(;{YgppVF#F6uF!~~rly$p|zn1XkMqiVCHn#!Q^1g*Bp`K3Q+pap!SoO!;+
zcz$|WdGAaPih%^3=)iY-k3I#`NJ18-k?O^%<eZN^W1Prq^Fl3lrcvrV`M~qTz>#9+
zjs&731jxNpLOuZ~TUU6WQv~Mqyd=q4W0OFCMD|bc_kasiTeT@l>C}Gm>X={{vgfP4
z$KkA$shz|qMwcG-Ktc5Y)&RfqTNIKDOZ~I%sS8Wvn93I2=9p{XGQ5G~Iu-|jR<|^1
zobzc&s46U5I6Sdeb}ct-Z8MSJ27J?BH}t%*W$?IC&bZ3lG`z$F*|W_To{WJzhYoV<
zjF7JlO5PW|DWuBhI$RyP!-7ai!u33gObrUl&#KsmLA0anqp2oJ<GU~$H9_f1f*px2
zVQ*){cbl+=w#JHm&Gx6}Vum2QYelYw0%|()GYd--#BMG(_`w*$=dM*ekkulpj|Zjc
zod@Rd#L(5#5trCW#+@(LAo+^Idcj4XH=wy~9-KE|glal6Vy+G$Kw|-#d}1kDPgngC
zyP`1ZF8oqlhoMo0i#lb?6%*^&C1%%_$G%7%bD@s-GSVf7y`*?ti&R@I=HYH|v5AA1
zM&`%ZopZ4FO9&YxFb;QTqZZ@go6cG-sax$Q0<XR0mk_f>J#;%G&amlbUl{6BCUd=G
ztP!H=sJiq>U@RKIySaY|vkFnd7scL7LpIDA{r2tp)Ac7Xvz~q6Dls8vL7hzPUTvHY
zJBjsAsTZL3_jEW@lZiqiJ4N5EIefqgTB|B{Q}LE0VFF(dQ|oRZ{dFcOy^QPtBe6O_
z5PNyH*e27JJLy3Tcq1>SyRGxtbMwH5qMlr5hC14_Fj2S518nJ=A80f(KR8pfW;e&%
zDnqbd$|n;sx^2fP+>cPFT^GoBe&3dg{=iVAL8uabB4?p|ySzh9q(X!Rt&Wii=EH@~
zooX=HF)HV(<APSm7+Wp1aM)?)kK{Tp)&8Jf(9Q4d#QmDysiV6I7>MNG9uRM_{B40N
zSB>mv5_FL3njZ*7j`gaxdd0YHc!c@d()ZPB;6sw88ok`Rk$ULXUd~>ot?U*FWW_B{
zVhAba@$@A`@ZFJ<ARl}rpRX=JQ5?Jw9%HL$A+=8CCs+|!$}Lt{?=Zuz-~KtKti9yg
z7jvP<Z+6!Chn!;A*pAnRYBBJU!4!*L@`;}QdQaIyzb8!<?9S{1oCIbQHE4xyzc=<&
zc2ys+vRMCsyfVWV@{%e$aIoAm*eH6wpF#(Q4;}E@<juT$R2`&I0?CkP#lmhR(f|yw
z48Uzv!iVI8PqiPcdU#P8JsGp37)K3`RBzl?SMqSD;BMbE?)uA;tg;)mw40n#VcTEn
zal8)~q;yJdKS`y%lc>m$P5<og)yah_>(2OzGRe)e5HLx7Ivqai*u~!K2lKguSa5v_
zqKkd#ueGg^F+0<<Qbkn1!KAQjX!!SqEQOo=Dv@set7LclKl3;Jlf;`d!AQ#wW@DU;
zbUy7zUq3*<F9w6oL2UmID8O!j;wfHEd=6}@3KtW{BeTUwNbW2&yZji@EyCJhQ)!8a
zh1Wz<T#mwoqq!5_0hK0liFPD<tC~i#g&|*Je%IGV*eJ=0&mjd*5I4oQo#z(91qgYR
zlj?IKLyd8{M5~%pYs-y!8@&z!mC~;_LTcTtzZokfxr1W>_9fzmh+e%6kJ55rzM+E&
zjWuq1S!=A-0T2}5?I|gk?fTVBYOjinP`AxNG(dV!4$tjTur+q{(cKK+&HRfAzM10s
zwGk!yP3M?+|GPwSrDC&iR&Hp<ywDIB{t(y=$yg^cvFNKKfyVe0UCMX@58$mI%9#wQ
zUX>g7U2vc{6KT|LP|1z$ctqNd*ykC^C1}?6n!s(@k*^jO**oJM04{D<O0h}*>%N~V
zU}<zmP{3<uf-<}#!M2bR9)xE$r-b^Y`i6j7;l!W8p%@x@ZMcMl+55*31F?Ds`U5oW
zff_#67RmlZ7{UR7ibRBrRM(-&C&4qHt8+?#9K=Wo4`rLf+uzU_KT1rk+K8~-Z*VUE
zDcY^B7IF%4R@}j{^qX#+lUpbjk{9rslbc<D)tAYF9*1?$5Y5b!(j(JANW}FXJ#!Jz
z62w#~I0BiVUyFSw(FREy{0vwGF7Sb4uqDB5w?lCma@c3IvC^=+eZV$xjDkSpHoqsM
zG(jqcVm(}E^iEGY%(^H&c9x<u`^>x~FZPcRm2gL(qZ7r>7p+g|PbB7XtKD*R`gL!L
zbVJLQ4oGk$SPhu_5`$Tsip<&CjU0@;CZEPw$=)js6UJpZS(I0&i}!PlL&g0LdIoHX
ztNHDDxK%78Fp7nvKsgTHRl_)zJQ-6GSL7@OXP%h>NiFO(g=;c##$n31_s}E36;Vy_
zK4|r!c18o%!dzPbDWYN2>>Gm-KN#+yp$|jmbHefs*xy+r3N#-h+zhSgxYW&9JBZ>$
zMe?i7DP7(}X9X`Ju0V^xrt{`HTS?(ld(aJg2~vy64w_ntQbp}ciP7uHX*fK3rC2sR
z2eB$6k?GcmGZta!td3?e<QawFG@;lIh2<x^<8YtGfmNm!*B}${8IWAJKr=HrZdCyN
zBq;458i?yCs=m$)k9W~EGcl=9rt!g;9&3`d3!4__G&VEY->xqq_ojPl3y&YQQUgED
z1lmB4Pv{E;?{14^zqto$DQguf!eqi9x!+edX9{>UOAMd)vL_}KX6!64dt^EKv!c3>
z2w?#<1?JicN@k7Y)CCSKCLx-7M>EQGq~I&m6gb(j8SUDT^F68lN^}AlAd~!xFnc-=
z^gNt}Sl#5ANqNKynfE*I^htH%dPRh=cTr4fK(eG-G$7k{u0EUGgs@4vwp5T!en!~3
z1Va#aVUW3-S&5Z#nhf$zU^-eA-+TBm7)5a3E^HgW7Z>rNQPV;j)tO^vSrQ*xU(uO!
z#uK5aHdwL-MUr)W=@(eZl~f*ixXS*BR9^(4u}nT}Rs$C;7w0;d|22jpgsTQc0}n6Y
z7qkex4i{@}e#y^k;I!f+^gSi=5O{kHE2+lZ(<73W*!l|2+%prBXOuX7=^>3(B$D*i
z_w#Qn<$u~MRTv>&9)urs@qmFLWIrfQHqZO-6Txy9n(t{pDl}HE7MMHWHb+-lWi<<r
z62xwey@L>+yo*ZzQm<|r$x)n&&56Zfz^-2!Ca=q8{ufO3Tc25e2)cy1imgxjrqMf)
z0N!g*RtyekdQ_M&UP3MZEuqwtfo#g#JL;k$>9@e~aKI~d8Ge%7F!W2D(AD3o9s!eo
z)|5UABY6O~M#b2Se>8y;<+Rk+sH#Z3<0E@-H_YUCM|^?WazypPhh*?Aq5f~fVOqnB
zmSk0XuuKEsoHP@2LkbwvtiR-9%@@Xq|KSK|RyV6zrS`mFcOcbi{i38F1EbSTPH@oE
zkBi8`)i*}_1SgONvdfPMtEOv90|^DHX-NFij80Fm`q&EQ!>-HGszA22U@xW|mPA6}
zh#OV>G$#Jvevf1eTp6u%PWxv>f|X#snx5NCzKk>#t_nPj2L8IIhg87eJkIxj>$N4g
zzlx;)JsCFGb)zdnKN``d!2Tjb?2NaOoK|cGm1@pGb;K6sv+wuPunhmAYNcSp2sMlk
z*6PsA2j-eu8|<2>w{H$J(Rl7@uPFR;N(pf81>BlBL-mamr$QpOJ-A5)kbMbqi*s1$
z8D<&&%6ucLi9Z9a>4V>vqD;SVsGTvX$Z%iO5|$MCc|S|&)6pzn=r);JuOmQRG_iKI
zAn+nM9xMT^rWnj%f~{~EZ{G~L)S&-%9)bm`!a&^Izze%tu)4IR5G9!Kl|G)vZSp6?
zBI-fxgu@`(8rvA-{Y%c;61v*{@K~XEnr@A3lM~0oa{HLo{;KXA?MP~QyX`12Wj)?I
zhE&J8)Q{a+pRvey`yz!wr|AJ^EJGtT6)L-^t?W`=le-5m$!O+qIF#&_5L-b~JvZIT
z4hIbug7uDD`4~c2SR>HHsog;zs)5tFf>#ba|Lr7+y+rZtNPtN7-RfRySBKvN(Upl<
zNo0hR>g&~^hx%4xx4?XK4{5e`iUYhbWcHp2K)kA}n8}Ah5gT*4{11`Kp)wa#UF4PK
z9|PxVpq!bMGVIZxR%s=l-?5cN_-e<%Z1hJUw1oymJEpYNAp^7sT47%h6xs1DzKXR&
ze2y|39Zl3gLtF}_+A3K~*m{>D1tek;CE6+Z4wmDv6cIF2=YW-+bWE9K02#{{seoi2
z*p^EiNeXl~`8zQ5{e|a2fz4_|QMNn+Mw-=*p}1Aw#G-Xo(HSjaZ4B}=amn@~Q?|f~
z-0Evd6ndb1caMxvi(l0WJ#J^Da9ZcYZpMP7m{*R<Ww+g57v_yEx5&G9#l-rB1Taz$
zZ0@CQbZB!7(L|cEkr8{BLh~L&taxK7K=|=XXsH<}X4}u*@rdRW)ZSIU0mG2C*K}IL
zteu>&6PA`w{dlysC<=6Cs?F^J*$2tE?v$y7XxdEiTfmwp$l60=?q18$xCuab#A@AS
z_ysb}Y%Y;T`F<M8x#kwqF<_uQShW`~yK7$EOCivwpy|P-=((r@C)HJ0$p8tav{|R}
zv~B*`^6o(HYzTw6%`~{&^rhhl3$xK6XwEup08iE@dOVvgYy6IreM&hst0<DX?XYKR
z*y+(&Nv(jE!2xD)Yzon*5vbkP^VljnCu7v{+3MtsWx_uV(4s2ck2b*ROgNd2&=uI|
zH~8{0PjX>m3|+RP2l~K(SR?sa`~pW+RF2`C60-)TC$u5xEhrmE0&2JKC{oETB;i(|
zv3Db4P=}Gh_dX1^3iv3_+`fvAuBU;KC;4p(E<XOpw0Jq(_$bE9*pwGZ-f$OS3zL}R
zj=0osfAYG?d&w2Bzh!}eia%mo2NaBQV;N*rvtp_V**I|X{TT9^?9_L+zv`+)g~mCL
zE!4^<ppQ2wi#M3O&6i+mYiN}b-(EIQhEdd&lxbQeZKnt)Ys$s7rDhq&#K-HsW$BA3
zWcohCXCSjQ93J=-_deYmSj8kpyxpS&hHF+4x*?iGj8|*a)SAr3Mr}gNZB%PlC(xOP
zt=HGklET?bl+inO?X_Q^ANgdCOfbz~@5W-Is|o?z;2b_jDlTV$IEv|O3l@nhyz1q2
zxEa|E@SIdl?U&9MaGGMv25eqz4x^s8ozakm##?&S*20%*Wa^}C7s`#$bxGtu192NU
z3OAEVMZ*HL$^+<2%$==hZ^wU)a^QUufTqwSL%hr0ERe{=WpnhbOjX{FMcaLkj@MR~
z()iOfJT?9Ts(%nitD(h_UXI~~@~|4lB^254Ew*+6U1=FV2sBH?$xczw1=!0ozOOnN
zBs)hZY=x}Kz_~DL7Sdk&);JyHmT%^GcPot(_J_I%Y%U5~0a*R41z<>0hnI#{X{IJz
zFC$Jx{}V+aROC2W;j08+3T%oh30B;TIod?C1oGNJiG-Om(v<9H-S1>oKxMbxzyOZI
zg(QlHbKVlLPb*_IfoI8fDv=)#F_m&P3Se1IY1V+RwXlg^g<uU(+!o`yZno2^-z<(7
zQq45|V2aI@jr(|sxm=Aj@)dVs8-KZ4ZJFgDV<j)?mwEv-!a&d>JUq?ac1*P6`p+o+
z&6D4lh(+T|^bV8@kkix#<OT>E?S;j52tgtt#Ohu`ek7mcsko+U#HkEm>oHiPn!&^Z
z9M!fzZi+~hS|PP4k)9Ldc$%RUzXQi&A0DzM@Uvv8`f?;YRnf=|Wmr?BJj;beYnuMH
z^{n`<M+^f!Z>6~LfSGA<r{L*{^=x8Hrm}WWV;9mKO=lFimTW^Hw_AxzDoj>L7gi#S
z-IhOq3`pQgCFb7NP$k<*WZWNO_8GQ>BEDd_`^yapKppxWIAJi}QIgg|>4&wOg6(lL
z0u4cvqpV`_jd<`%fOginYAJ=)<a#USTG<+qAD*1v<sA8`j!NSo@|Rp>t@q<x#u8|&
za{D5-%AlCdG)OQ-F~{8eEd+=2=rXGJx6ox-m=mH@2XUNC=;*ol+o^<<H7>c8mP4t;
zQVP%mSnp$ZwfqD7Z{KS4X{pN!pfWZlg*ZWKF5*3?boe<A?jPC$Tu8#mSEBv{>JUQA
zI*}4KCHE@;9OPYn;99|EqXN(i22S3!J@bL+i*1yY@=X|0f&W0Bsg=wr_RX}RH@+h-
zGzDE`iPEJ8>PM(dCRl8JEJtM8%V#CkyT*cPCH96=N9oard6-j=Bo51RoblMLr(rbY
z&M4@LZtMGn=d^8_tT_7J#^DD>*p74IUcloDQF0Sjumj2%Gz!;l%T;AZO(fR)2~hO8
zj>2Mi`NQk&wZ~;znSJF6!=~CdrOuw7jmv{QKCe*Y6LG)}w{M`5sTvMx{DG86S&gy)
zMvj;Hzx|V#uk11^88DSAUOz<r>Ci7jRo)d_lNTDh1xZXiJ7M9Q-Dmrhz-7+~s5*wl
zegL?F`?fGY+_^w5!0Cz$FJ;VYo0#08jeWGLlNdo(_?tN;#+(2!9z6J=bW%!Pz2YJ5
zXp$o|d^M>wd=(vKwPgEq14+m|nK4_DKw;(}i=;`M9P7enI<Up#t-_v;2nAQzQ;@ve
z#YY!VD}FFJ$;dF8uJ#Bi*(Z-g34gTBGyA`#CfW)#PDlOVW4voXqMh|n=RWo+-(83?
zJD8^os)ox7K@I~)hHw$|a>2&S!s%q=pk|q`abwa|kc43*(mqn+lWT|4B1{*bs^Law
zXKc%8x8h}1yDV;i8;A_0=Jke7=5hv?DrVSBK^FT9m8*M{d(~)+uH5$KxO>$%46cB5
zFzYmyv8wJ6&tIlc0=K2-MtLBIb}R#V-74UVbz)93T-dh7J`|YQp`?C4JTW|D@AsI+
z+B*9yp_dUr3duL|B7D_Bs4|UQ=I#QVs1W1dHV1*@(3<ERpte4y&kbf>h7g*=Yu3m4
z!=!7gDsd1EK{VK?uS_ghTlfaV1HH|9c)-;xb+}{}&W|=XGv2SHYPU8j(c0>75Cu_k
z4VuY?lJSH08!PtR?_2fgMHep(m%t%GL8NR)>`x#jD<0K}sU8_z%^TsGhBp_(;Nt?k
zs1W;T^1BS|8go(?&`j?8BRep`w!7^D6cUR{HNe;?e_qG@<jDLuW<F&WdO=ETv6Zl(
z(}NeLyMnfNQVAZR^<Bi*$FD$PLsGRT8<i9{l@+jwo#fxeC5<|13aO<3QnxIs9{=c5
zq>0p-$4k@VjZ%v2YDHZpl$LoC(s@0C{=9p|@-f??T0s`uCz+>idpUk8kp|i4Qli&T
z-xO2`?G`BVqVm<MNWuF8-um2{g6ZPB{Iq`Drsru-*mke(0#J$1!3m4rjGT_2l1YG@
z_R0ZYFG%(929-Ns4#E;9+d?1bA@)+MfQW9?@VDv<AAJoq6U*(%uBcpoh7er-9o&;8
z6uO+fvv;!G(K;|uV*?G_v*+HU;rBrAB7G2^7!Fd`AWzZx@s3iW=w?Rj!=m40f1A@^
zCgcHL({Y(?=5Hwb=H;x>Bx3I`VZWn3?$5v7-3ynCaJc9v!${oJTZfj5a~!+6=%?NP
zX9n!bL%O@2a85UX){G^k!{z#!ei#vo;fg=fN}(Pim!EOj-Lc3`;&Xog6n}3(gKvT>
zT{dtXn2-Iqk2z9<DC>iYAgQNNC3LP%zBy4!s(X=TO-2b$V04$zhV9>Uw5R@6&45{q
zK3f$EEYz9{E4NA!SE~Wyy(QT)$xxYP0AEtZtZRp2ssU)q?xA5?e?4Odf9-D+^En@W
zS*4@d=5A@wl<XL!-ga;~MXPdq^j8EkCTH-2amBpWN`@~y#vXYh4Tn?WuFFo^r~h~4
z;3{3=4tFm6g~nTw6u}@xuL82~WFvaWiG6!Wvmby9fFn~G!5|)xAe_e*({g<ekJky9
z&s4A$jggEYY{jO=If?aJ^h4?ol6?bXA9ve}BZaPcjE%&f@_3a?L%Dbd5oVE}(-eL2
z+QxpOqWlxIK_MC)aLyE((r>}i5d3=(>-$o?H_^y!0E%#{WI+?^y6^vsYZ;|1tM2LG
zjyocX(HP>e4bj9hkOooTb+@pLLWq5{$sV=&Ullb?FL&<l`N3Nut0EO>%kWtdtBwkc
z?Ji^%0qIaxvWXJ~jLiSJ2<0dXB7^-@H>SDfDjJwa(p;Sm*Tg@5!-M%f6#nD}ZJE6`
z`Tt$G2XRwW3qkt|!|3%@f)~=((UV}xR@I7RW23w|kKe%Bn~SXfH{-GA=LK%#s9M~g
zbStY`l(k4O>HaLl4}e*&c6Fr{p)F6=v-sC4Qrr|NLeMfAIxK?cPT(gPZCWiOi}lG}
z;?#J>6<{rlqg4ERl?A_tKPV)|=6{a6r@&9-D!?b&%|CW#IGru~7MnG|>He=alyN&!
zOR!1`nf<VndNlaED!lz&g<MxWc*TW?Q%t;dy|&9ImMw)H@=zv=oL>U72CBjEJ!^oa
zG5(753{%<VI~5i{P;DgO1R&F~={2Vc*n~>l_8%k>GK%{45on_{sTUMKtSMFOX7U2E
z#$rLVG5|~0X`urwUGQ^wH0Y|ulMa}rLj&rh<>=<N#+U?u3S>JopLybns(I}t;ETsd
zBNVFoWhV9jPaV~TkLaeOtmvi(T(n9<x69@M_!*@6^P#tbOo$!no(O#yxLf2&tHu2b
z!uDv3!N8GdwqJM->&sYB5K#-?kcbJc+$8<Ao%l?FKp0lIyXYx+qSS^}@I>HekfxgJ
z7Vgwv&V})Pcwqdk##(8Z9@Bsfq561OT4pS>nT?5W%teODKcox!TFg<r9|c&E#+G6y
zU=dr2p;U3<Pr8HNh|cU?8k)Po&#9m34&Sl&;y4-8;hTM=YC3OxA9tm`ofyS{bt&Uo
z(8g65T~r&BxOf0|gb=+s_S$%l1=hcOO)hi~wzFODh^c_|TeCz;Y8Vk!kjFum3Dq;P
zo}G4#<~3EQ$%H(9S}iu;ja~~J<(47>;WUZLn%3T;Tt}QTb)52{wLQ%x=0A7~5SLQ!
zz+oJr25wPJx0>kjfheWk!xn|Rx;4W4APJmR9ZiqEAmOiZy>*IE+ah4rjDg@+<^E4E
zQF*%T`r{zh)!(?0+aB_b3~N<wy3TET8Jt8wR4sY9gu=IfvEH<?NQuHs8KhDrp=luF
zevh4JEyWWJ)Npa{TS|m^@+aX+3D#)A(cmMK0;AyQrqVBr*78KQZygKz-aJ_E&I^xa
zbuwxNh1j)kz-dcj)+w9pt;)Alh-r#|Zb#*44fK{5^EM4C1p8Zyl()PpR=m^+0XXD1
zlQK7POcnBbe_sideTqwK+v^Sh&GJz2V^AqAr^d^9yn+c+P>6F2&NXec99U$a2sC)j
zcO%p%e^r)l42%_$gfZ0nq(Mq%*q^<`J1N+p{}ICniPQ4+?*^0^+4BQE#DT@~Vs6_9
zZ!lFE16-UG*3W`VKSruMzraBH1+7bUE`hIp@X^#9@8TlqE<{Bxnx#WnPG%CfDHUXG
z85w9a@6z5P=UJ>|%673*97rujawr2#`{$D%f?I^Cxz_JNrTr_y@L$1KOdKfUEo>ed
zD2`Sz8V4CaX1*0z50phLutm}MeSgDeVjIpM>au5IYH;}U{WIl7x<0F<F>^p281}rC
zwbpRh9bh&1t%*C}bL2rZJ%;N8qJK+!tloiW_0IRV{#r|f-hqnX_U%XVw+RMG?=FAR
z+XBSMOal*tUdD%0>_r#u=6}3>WO7%Yyfd>+4A|<FyXp{D`xg==3d*#8%3qa2fX3cl
z>sIh_vbfCn7e|G&7prj~TE0W23x?SF<3o>Mt)v>T9teyv0!n#6rGfL~J`Mki8^YQl
zvC`1%t9T2kQjtzHW`}*Y*l?7gqC4X!yp|SSIv}(BhA<Yowseq1{w;=_G3uc`nlo>8
z)!bjkwY?Q^)A%b;4B??sH$&*q5%GUV$Jow&QMzqNbFc_%!#m+LvyXB@v%`Puwa6iF
zXa5iZo>!*iA~z*&lP<%qkMV%{(h+!l7Kg%+4;^UV!KfC7_aJ5b1%da>9hD`eCANHD
z^urEJ8(1dn_#Y<nPW$ysz{Dk;+o1Ya4`SZ#N7w)73nw{BV5Ff+vl#=jU@6StS3tsE
z8+Ui+RQh!^Ek~7v0`9aL1<)@ve;Gs#H6f!^U`MxD`4&|3`A#w)e0482FV07j-HCEw
z+!&Tabv#pseaB>oRCh+E`0sL5`YUn8a9lrm-rBq1I?2nMn&Yk30nTWP<j1te3h#@O
z?-)*lWwekV;}3q}?gSZO(q}F_d2^>Y4W8>BS@&j4!l>*FM&VF~eX3SFP~S`5PcHM~
zFZ(BhD27T2o_sm)krB-Z5zIPP-zt=Is#yP|z;E_>-@*(OuY;}9J+aba<MiE%ti`2i
z4_`UgsG_-7b8iI?hR$Zcw-<;A*S*S!Jg=<mb~&9J`b^w}+n%zv2MZ_w<;Fzgw|{;F
zTZmvJ&^nD0`VXBzDrjEvbErk<O8}$glTb!#x7xk}FR)GiA^h}m+qPLt&&hY0drn_G
zT@OwTpH&zfOpaLeD1JyV{nAHqW}B%9TgR9%A7lr=`w2c3bZhHiK?QVmr~$FCc3OB2
zaNnlrORUir{xPS>yC_b1GiIsA&hgkP4{TC}Ynyyt$v*@sabWnFIn0J1O+Ui9Msdip
z%+xj(QL}8|F!5}@sN#xf9ZCpv0*KmxVZFYj#5f9nCGSj+WDT7MwT4=?G$rss2)nUe
zJ80|t2JlPY!0Z2>w@n_HF)muWlWqb&Z+nDQf{|2vgg+Xc2lotdzE0M`yNF0L@lI`Q
zte=CelJW5tZK^*%g=;xy;2Spl*iL^OtIo5>j_2i^K5?6M1Dmfs^(CG5jJ;{@|0sd7
zeMq`ZkM1}2v(HScCHT;chBN=YI^~4ujp^DOW$cO>gi~qd%0B%++qTsnM8L)_45ocM
z?)<-wJ5ot#74jtg`R{QpVE<FjUYs;IJlwd9eXAk{+gXQjvaV(SUbJjNw9Nc>-QPuv
z@cwhrPHu2V0#U3!=>j~?+TcGn3)e1B_S4k~gZ2K<_V2126N=u8;_%o%(m|**2b8Q#
z4Ag0{ec1Fg0Cabk&+7K&9rsKc>nZ;sC^dH{fTV=R`f9=DC1g6-RqRd6JMjLBI_M;q
z?C?^XY+v%b#L?F&$=LNPq?y~jMZ21o{g-;%(%V4E4H7OzrA%w|r#a6SEZGpv#@p2V
znjo;POP9(d8wZTnQ3s~k$2zBIg?6%b{eNaf^RVw0TpilkDs#Qpmn+zqzczs5{r<06
z-G0_s&~wu|2GTXM;cY(Bzx%|(4481vDO~IjfAqfRUSX<k?K&Yk;->t~3vZp^S_Q6^
zPr37-_ls|A|F4@lY+*hCQ#_NA&Tq%!8aXiw+y8qk%iCDl1l!}cu`K^J7IY;a%vmhM
zanW5`9Gen7+3BQ?G-*f)+x3+G8+UQl@GI({{8*gKZ$C$9alq;2mMSg){2$H#*oQ=8
zEbI6%jM8-)=+^KKWg!jWr@p~|j&(`-XKY`<UxzB(Tulsk|Bo*s{F#G~z@Vc9ZkyT5
z_1rTRZvH<lxu3Fp7J0sYc|LeqJ8<3beSB>1>e^WMetMkh@_yJ)xfMC(i667S*qQQu
zJ&f^vecHNZeQoX<e0kWqIzaDwxmZ+wdzHq^&aB~M?a>fAx$x`7(8~Xz>zl(YX_`IT
zwl!_rwr$(Sw9RREPusTL)3$AU+P1yteZSp(?%ikaf0b3gjEsy7<T+It(e>Nk@8u<y
z;nL^(|4q87c~7VX2S|jUL-Ri-p=SO!33YOYp2|Kq%0HQli=28Q+aLMBv$&;f%^8}l
zZEOT;SPThWC1uHSb}xDixW*XIQsM%mu!Vc<d17^{H5zLD-kqO$-{*eBZ20-}K@uG|
z+WW8UI6TL$-1~o5epcqr#0;4G_jq1CZ#{naZ#jN#Oc~VZzYh?Ml-A&yGxdFW@cH9}
zrZPkg-CmV%*u@n1pFT0&%@Vj}68Z7+(#J4_**p7lTRwLRQe7IitX&-+!x<nDjLiw~
z+FrN2`ak=wT!uL(h&*><?;R54HZzR8PAz@14-a3n@VFqZ-0$p8XcQkuWdgEaeK%g}
z$Btb$-e&rozY7c_`gio?OenRF{<%D*{&Gy)a!1U(o*58$U#Z=Cy0r>lob(vg`}X1e
z<k_&3NV;FMzdt_xUb+0dap7yBj824^owV3#-=DP)Q+c_1cRX?b=8O89aFzweAaz3*
z(cB*hH}1<D(N3!5Ak_;yJMXtA{6H4=l{^6L5Z(NRs$op8HCan5oyTFw?@afUF!VJJ
zl1qM0FQuDtkf``U7N+1N`=gUHb*#K-In&75+4aQ0A}sOkr2$(4#pkv@@_Ja{i~s8p
zE$Vf6{mZeit4sR>3ssMGB4Jo*s-oytwUOQmWQi4AE>3kJg;kKPg$!O9@R_N2mla0*
z1}-mc|9}bzDKzUZjd?7H+9D$kBfa^$%-JN?3-Ui?@Ey=CZNrjosNE^7ilL>EH;ZI_
zr;1N<DOR)0XqBudiV#WKu){9dk%WR5K*CP?<q*}e?gl?G=;j#HTBrkWE`6v&%S#C3
zT#yswiRxu^N`xlp?TV>LD}M}5Pg50BC!Iv2_`Gn4?l*x`Wf>>A{7%RzQdL2cE|DB7
zBGkMx!*QvK)Cg5(rf-c?VGd51#|LjPpGW%5Q6_ZbJ)eO?#v%ovo@5)JAV<Z7B!gla
z(%g`hpdJU$DMJ*PDtr%YVMP@J1+6t;YX_f@9Soo>SpzjzjJL|CUm`Rj-{}OGkmN&J
z{X>j(8RrIic8<FNBE-DZS`R)xQxpIe?G7I;4c8>m^b!svDiA79PEsahAXT8WD(w23
zj#F@pQLwAp8RzpmA@^UV^ChW@vNN-N(;?_ulmnH7(QOC|lPdN;Fl>=htTI$lk2z|i
ze_q(yl_|j_CRxJ>Lz}Mok0+tNgUFyXT|m@IvdTM9KcT9}+7!&y)4>kRvx)}wY4yQt
z%aCQw>pWnBU8TSzJacyKFAyCjaXqk(PZ)|7kWk!gA2i~{TZJd!sZk3Z-?!VAlZt>Z
zlsS!gmyOrpF}8usd~*K2OOFvXF>&NS5Qz;30@l?vby^t|ofnVaJ4y(D(dz=w!t+yu
z4pDR4jeFC{{VkvtBG$$9#_8guIT$XX5g;zPJ)J%ZUfE#3jG}~KvmT{EhNiyuTg2L#
zsFK#Ygp1b6_9wZa5!5_dy>0Ng=A5YX#AHK@;^RJ}-Do9BWQFY*(PMkuQgV3#@d$)!
z^I~=QXkl|uEirC|qdWxi%Q$#N30{ewr<$-*vM*Or3}(Z!eP!8by}airyPl;RD0$1F
zEGRzM&s-oi1B8X)PU`%u@nt;ajmj71SW(yEF(r9!G>idNFy;gKJfaLFjY;B~F#oTg
zxd>{72n+IE)cKR+`ahIWCw0aWL|>^*#0m_5?NxrUDS_4Mn)l-pJ1!d=fvNxImgRY@
z2v(-{c9oQ?+mkWDnIac59<<9k0WB3pgBpfH#6z8ve2~7mT)?PM|54KAr6%0MGhzNi
z1-I&DK30^?;60ua%SH32y66G=VEOOtVj>h+h=w7fD7BUtHX1(&wPZy_vzC~0=%Z>E
zsRAvT(h;2UKlA~_#CFk>76K)6miJQ_Rqd`-TDPzjh#jsz7KquL_S^ZEN!N}El$I|0
zsEqQFri$T&vg#_LBuy}{Cj%8~BUY9A$%@Kml`(_%7KOFVN?pWCibB#Fl+^7OHPxu0
z9Mlz#d0l^FiL|S5T(j8E)S$)G*w5154EQPNq*Q5QB42FG8b@et3VzbNQSqP8vAmqf
zHEJPNV*Dtj1I&*onU1?;TElTis({<uSS+h)URva;G@SAclBU(h=7bHaJY+&!bt!NE
zk5H{NWm$uegt2d<bp`f5dW5hpF^w9Qhp1`vQjox`ZJD@MZDU(KS%%MFIq!#x-~wuI
z7gGFehIdKT`%7LF@aPGHtD^A!;W2>?C94x~L8zeG1)ZvPr!2QaHRxhhw?oM+wjDh2
zcHn8McoSqif7(`a7=jJX9dMg8@;v%Kw-pQ{Rt5l3$eS6&4BnbAsooFJp!{%`3NRr~
z!L1So_NfiAHVxK0QOM^$DX{}+8bML2T^q4qDu<JrGXT0Yjg>4QRa)ZXV~)A4bH^@v
zF^iGIi6jLfE4Oi95e!1J;Vj0!5Lm00!kg0-5I4MEbqIryZCS+;qNhOZI1S@hqOOEE
zqb2ta05?#-JB#r)PpSLzPG^HejO;<vbHIq2&=vfhLB}O$;`gVPt|c{LyPT~=89&R`
z&|VbPn`_<e${th;HoNPS{Agiio(}YhjkE;uAWMRC5Xj1?P=4>lr6*uNudrQC&M9NW
zIObs_t(pB<Ws@NoLzZSogCrNX&qJ@ZQ*rsVQ(-ltpPVH{m+<_g&mOzA!x1)e`Nipd
zg}=viTX57k@R~ila4quf^k(N%Tt^V<_k6#g($aQ~uwUxoj{oNO@@nKGa&x(~p85YK
z%)QlC7GT8#0!nT9pSKYIDSnVG<BTqq5b}Ia!+1#%@mvUJdHz0Hp%uNhy2`sujRd|N
zz$mq~bbn28Cyf4#_Z%*{RDgS<;8|QaI*N*)vs?RhH#3u~|FM6yd%ORcy29bc#KCaY
z-3dr%bvxlu>+tp7v+PgD!GND@-_zOg>GFMe^*Hst#kc)&IMvhn_W8Bz5KC}%m81U$
z*2mMw_kQ>E^jv|#fWQ0m=kx26W81gabFtX=j(|_MueHDL%jMzzN?6B+dn&`*$7wMO
zdDn-}`|ZS33(dzv-7(Jd^^U)fw|hGv-Peq}K~A^c!S2<<rONx$KdH^$JnoN{I%4UX
zKY1DOueN)-Un@UPF>x=aCOB&8b3X+LuKoNw-|nL>C0-xDz8p3TzAm@UaU1g)z&rH2
ze}8*;++JOMUhW9+eI9>a_iXxpTn?xt(%Bo_J$)_gANm{ke6?D6-tXOC3NU<szmK>p
z5a{oawhY>Ky51fQ)w;(joR5^syj<=O<X#DUUvrH5^(?kTwO(U7`s<Sxk?E-TZu=vD
ze-eMqM6EWg8qTwH$KQP7?2fSADI3F;^X~IR?9`(8>kcv0h~nnncNJZ0ND0&!=T_T(
z`NjMA##=-xcN-My>X|$ZG4#MEPQ-C<@o#l|KK}fEj|zkRe0g;1NWM@ghTm`55cqO^
zUy-TObHLsF_CS^Pdb}gp2<c{l{5>{`$5uk<Jf9Xhsby3lWWIzIH93Q`ANML|@{v0^
zQL>S{#|3zW*B0;#77RtfggBy<=|P6m3honS8b_ojSk2@l^`_CZAm5;$0msDkwv#&N
z+b?h;bzZ@#6@ffq&*R7Bw5o-$rsTo`n`xyTORuqJt<7-pyx%*lO+AQ+@z+JI=*#1V
zM7%5sh$u{j<gPa9+cLsRpXkmyQ=TN1>4v$R`e}yK@Zkw&_vcJ+Qe2f*14VMbWHF<f
zm1uypk{Xphtk4R-E+otEJrmJn<C-?<Wa6>|5yz;)u>&~S2>R6!e+nDCa<o$F-%yHF
z<<!MC$&%rqU{-lQP%F_o(K&R5<87H_{^HW_DptsmN}wKPh!Yo=O9HqVuaJDzhJ5=$
zQ1dID|0PX|)Z|5;+bqcv*CvG^0DD9!(jNLj$p&94sTAcmR9smZO0rFaB{3(OVjyXM
z9`rU=BPYHjxGD@&Qb?@}L<#8zT<LM3syKCWxikrgYDI<gqt{W1f`Be0s!q8yHP_B?
zfZ}O}^-N2~Swc9M0n6p9x{ofi@4B`G_0qpR8pNM-kKT^MLo6I38!>r>dD|@ulJ7YL
z`O!Cm|7M;=Yc#-H%RqMD1EDy5VqcyY6PA!@j@0R(MITc}HZt)Gck-2Fu^3ZB4wqiY
zX|77<+zL1Iq0aA-oSTJtt+nZ+oSqhYyPPXB<kV44M+K7%7T)(+c(Q;TsAT@Bc7gIB
z%XET^QlL%4g*iG3k}9G|yPBZ$aL}LDWZj{~Nb@qWg&E(1N@?c<cltGWBE0j%rdq~O
zz%1-&b9$>S=wWdFvke>(U#p4{?VNiZ!-(HY9p<u4VVF)Ij^<&z9^0iYvR>qu{V{@`
zkeBo+{+4(r;!tnD$77Xxunz4TJK=$^WSous)}0qbo*RL^{L*dEFhW;*cBU)%DRjw(
zYo=fvZ38nFLzZelYizyK^ii-z+0yV6C6aX@!A#$uV{i(5^-g8OrlT4Fee2WiEpt_w
z%}7tqj~FBeYxJCM1&<Kz4QtQcKu3tO@<V6c0!C!dvgOTQ8c7AZt^SQ5Ysa^cz0No;
z;m&e1u1nW`n#H|eI-K#&5Tj<-vf6`q2BF4NzMcO}GrO~z5+l<ya$?aEyuLq$KMqms
z;hyW28e$roFjeo55%RA}gvSgXFYwcoLl>Fr*#--F9i^;=L5c8|Fk?z-X$S^o6&R@+
ze;}td@?*>a4D{N;ptiPRjkp}c_F{L_Q!b7HNBJ4S&9IB=JIlc+Ra7T^4-8(=gLyZD
zD4J>yGNRSZ1pwD|^4p*5q!ZCRoL&Rs{rLm*e)ng>bgkkl{fk5QrV5Hyu*D%gnM?5S
zU75H5UdoGcz1%MoLazJEu(VI=ROr`dgLFF@n@|6G)KHAt8hbXE1J$Fyu1&#zA_0y}
zi(J?IX7;WC6%Wz0Y|tB%LO#c7nDTCK#d>-GJIv@z+folG(sWi35LKkzTIjGzoQ(Md
zQkoFhpUWTEcB4$P;@|Vt{H660=tN%jx=O73eHI$JJq6zt^l&AzH4DJgvTHF>hhnt<
z#Pz`T0O?;>l+%w^gvqDNuD`jq1DA}cY)c0SM7cfPeFY+&g&8tjdjOgqss$M}+o=36
z2t9{P3z#D;v8pqIj0^1&BkJ{$yuOf^@~Ql`-iFDxCcmJnCtA?AJt9}FE%F|lE~^}!
zK7B6qcprE@r}h>j$@P&s0B(J%zO9#OvTZCNsHz0J+0w#<Zsrwc!<mbN7BVGF$wkt<
zpw1yX+0hoO5f`JW|9tzkj&)yg6rhw-OL(@PWE+X61+>O)vBqvzuMXB`M`B?62t-;!
zEAV^+Gmk3seDk%Ab}#%4q!bSoT-LbenVujq%qo_+*)LcYjPq&iY4~a+y*+c;5%ln9
z{;~t|ogQL&wOgbWdbh&3;ReTU^3QRW*}J^rjh!*-(-z`oNA89@U>TRn6Z^8-8E?=q
zBUECO8C^G4P`r>$tdl)e0@l%T<#0=kUHXze06%}xCNJd2ytn$^1H5io;`csq1%!PT
zh^f4YRIJC0nVccYPM502`xQ>mYe^q6GCjZn&LPu-K#76L-AEU$R>)`Kfoy1mWpP<t
z21A8U^Wnl*3f2Lt_FwfI0jMA2*2ue3!~5TQgwUb>B<~otG4Oe^bz`lox7iRM9n4z?
z`^N!g9086y5wPO<-<>m@&4aqJj&7zBv0TsQG-g}KEc~k>&XE?eo}QR?=xeo0i1&AX
zS4ZeY9DiImu9>c<t&?|W`=h-ZbCj^PfzUDM`<qfNOr6-(YLGu?$KTtM35Y3^?GJs2
z@`toMBO9kUy{PjX)v3gcN4;oZiFi}iiY7osChrISbmne&f}ciL=WV<iDl#g`MLK>l
z#Uizkkroz#U`K98P<_C~MX@!RmF|wwz%ASv*`J~VT%Y|Z=t0|SJ=VpE`C#o-cilVh
z+*0B12HgZKoeN{nb2hk3pR|ovq9E>5H-5oeSj?Y7tWeo_XJ{4bMR0L;vCzAP)4jS+
z=80_nA0zn0aB{wBnQufv8K))ux*Mi`tptSQm7OG_b`?35^$LQl5-CHGuW*v`V`E(W
zaFsUwo8yScs^u!5es(c@4pBx)EJ#RAW7sv;{6upY5lZP50ZcU>yL8KpRn^eWumBsR
z*y@L*^xoy=73G@ogwu3i=!|EtHV_$Vksw={%LbNmqZv4`wZba-JFwY~h>RxPas{l*
z(lN*Q=jx?t?uGDKTmdSiRc$d`>qq+E1lk}(k#qc`W#8~T)pl3JxL+3T=!}pvT##@Q
z`xVN4aI-0;wRTdg=?ybL$Cn8chJFMkhXb3VG?FtsC*u6N?<VmLfn}6d2%5JE)eD2a
zs6XhiNoW_-u~sfXJG$B6e*2{10v1H7829z(Wwcl`M1eB3%Mz1g+dXvn(Ns$V&hC$J
z<m<~|BYOVHsg58Q(a3hs*fa%-_`NdfPpmnqj?OL$S>|2z&W+_Y-T@L5;Y4L#*nLK1
zg5w$h$I9(Cu`7O>q>Y5sp{SzOwM!V~Xryl<t0)XvuO#G$&DN&*q0M~Lb^xmjO|su0
z!RYq(!%^1NbdP?=X-oMe4QC&?hZV61lCE%NGS-BL_Xd=u`PX?qL7At~spDxKl89y^
z3{%!35vp$F#XtIwn&L*%4*ecL$>4Oq{72XIygQ!;bR+!2Ps-M~3|CVLF{T9vv#K!}
zv~%LyF1GGnmpT7jI@)glG`)nowmQhpA`xhg&;?}UD$xV`157k=jJ6YEP=S(YjLi^F
z`-!vVLIg}~p3Xa%*^MdJKmyc3PH^$9t~m5?qU+`C{0Sqm^|~%;8?4^FemLJK)_H(m
zRFQJ4PGYiHrks&}2xR7JLpV+*8mu0=uOu-atFtUicb{<q{}=)gCZBWcXGzT0#nvPD
z?oKssMmA#z<3yr}QV-7`!PXMyiOC<0kbSZ`T>kM59S`BBE~gl0rY>r4R8a{hsEQTL
zTl9HPtcUKFE1a?|BW)%CFKH;{egR#%DHapEXB=R(xsm6g)R)%WzrO@8qSM9Fv)oc*
z)XX>K3y}W9ysviyXD{czpd(W+ir4cIEm|TOp~h-@E;#Bh-Z5aJ{FTjafS+O5>ZWM8
zwv}2K>^9lVR7}1dl67n-Ny@j3PV0$7cAEMG&^nm^^uD8n6!^h4jgP;-tyyWi2|J3G
zo@`WRyAhJrCq1y~ozVgCaL^?kFTrNaSq1`%y4$g7dbMoiT-|BV()Fama*IVpDGPPc
z<Wp0CApbBw<<rmGUU!d{`b>geUs`ssOJ;hYjwP~@&);8LVuUT1f$I&Rx6Bm-f!7#k
zb5I(K)KqhDSp`9aL4IKZ16v9?Gy0+$w7RAlh)i?F+Vb>|W>ow3yR`eTAC0Y!lctv6
z>7&WUT^A!IRXXSkZ$=GVcxPk+Xu{KNZBj5lXQ|4gI>+8#J^&xCQDR-Hla>wA>KkY+
z%x;#pwE-fdetVn33q<9r)gfo9mC@#qZ88TtwzOKex0899oIb2hCL8?1t(E;1dJ&1{
z@{}*R^Gu~gOrs%|d;U%B=iuPeUN$G`ue_5#yc+m+2p?I;%m2p1W&Zv5N@J=)$9#;z
zEw_MJJbjRLeGn4{A;ndMX5@}A&$NsgXNOuszCIU+-28%23x;qAdV|n1*XbK*6AD7*
z2Bj4GeGbDG>!0jM0g}l_DSqL3((T1FmTN;W;rqs#b2gPrQeo6s`<UzxgSN@Hce=T}
ztPh^{Cjet8a}mkyBW?@{C@b?FRi#dRr5#5_CZlplMOD#@+racpOP+Bi`PbKtT9mo&
z@?we(K^Tjl+eNx%kP42y63?7-p{fMwv~qe)4Q%@4=m6Fmo@%S#!e!NXYQWJEvfwwz
zG)*mn<R~>NhVTZc3KzR$S|NbsKeOR3l}U&{7GoPaJV0>N$ud3&bj<g{FSZ~yUW?H~
z<{-Akys4m=(ffD%r{~lCG&ENyBk(f|;Fep4G2ON)q&(`gxKLfnfzeV}5&3*_ya9uk
z7kj_(KAk{DMzJ9d|Bez;kAN!Ksx8QX$kVo_-&i}%magWVTsUq^2AGY#Sj!#w#CFI=
zL2D}+(RQc=uBb3apD9ID7dEq6`54^*uWx!Lz-a<P^egk&f=ZVEB*|b40SlEUeXx%X
zr-r8qb5aoU+G!IU>Z6%GAcz72*in>7->Q;g7R!P}xI>UtludAk;r5s;wa5l8p7FMX
zBozDeBVeB*`}_!QV2O?>6&a<<H)vC>oo(Mo+Brcr&P*R_tQ5^BEL_`G|F6Q;GZ<Ey
zJ%#S;QW@0gmy*85{2(Esy2oTrHLkS}vBy3-pV&MC7%bb?QL0pT&Rzi!<epqYGh>oF
z8OCX=;(Y(}cRG<y5GS}1-GGa4y0`B?)A9Zk*3U`gM8kBb7VKP}#QsLr@9nq@P?&fX
z3bnP2qL3FPAsx(k_W?hRD1QGC<~K--jF<`YK%JnZ_?<NAMRnc9Y}&PYqd!rHRXUm7
z4R8f#S(FN|UXEqFhv!3WcZv!IDk+zOFv)u_mV<Lx7NN57wca&mmX8ygX8>O5x6Uxj
z(l8-xHJM`PEPwG@gT+<jbYrt(z#yHApwIkjf@^#*v%f?yDpXmj_8oebl`7>Pk0Kyy
z@6w-PzyLC|vkskTkR8R!EZhtS7q4nO-<(54PLgteNS?p8RivUPrwPZb#J37qfm*}y
zjGRf&J6W$oxr7NFd*yz<hndG!YtOAcI9}sa)Ww1fKUVyu%fLK8jM1^l!hHGulbJ>-
zOuu`&>tC(w@*%68-cH)TkR!?w*)<_k0MblcU`MZ49eu&drcBg1pB-8GXP=s*-X2?f
zu)y_8#L<(W-|Bwj^jLZYsj6F{`xTh$&q=WcW@S}Cr3j?KF#^Eiy-pFj6GSk*jIt1~
zd4zd4sMjC=g8S%@tPj=uT1fIzEptyUthBlRyAyY>g}!Fqt~uhgP$tTeI~-Y*0=hIx
zJ16+AH-;LiW-vz7KcAggX-frwJ=#-i6ZbN?Z|{(1>_U~NX$EXw4k9n=-N;XzVp=^M
zTM?oh&Ne6i_3o1zvJ=i$`+@ty3?4SF8}G*TSV*stEJXE#A@BXwt|$BFoBwP#%jKge
zc{xK}abAx}L`7nh@RcDX*S38fn^NPrK(qAbxy6JcdVW^$c!}{9YN^)hps`!+aeWd3
zIbsO_?amX4Hb?aj9JZ*;hG>b6Vq5&;oyn*nmEY$8RNY|e`T{RmU>^U=#cceA8E_H<
zEEt}0e2S`9pxaPWzyl#TZ7VSr2_b2oR{xERFV);*l{6>!)#6XU%M9K-jUHI176Ual
zdt{Mn22LczkEx{>8%?~nd1520(ICG=`Ac74_5<WE7d&w828;apA%slO#8*5eq#)&z
z%$C`OCtMNwryFa6a$1dFwz@I|^;uIJJg{HE59FJ2YqA3<E*<Ik2*#kSjds{^9@kc|
z7i9dg=AP=L(}!ec!``N`-#}a!bvCMp`Xdyiy51F|;(ZoDSyWReWBKf|2j5V!tQ$L8
z<1X4V*o+@3s1=aF;ShpAFP04rW1))FN~bP@veQ<(h&u5~q8oDt)}wKj*$65SAMPkx
z*1+L0x<ITV>d8(N!5Lkycavb|#_>b)4_lIRZhz8om`Sxu=aTZ}RSGU~fj2*n!ULYi
zXfCzEOdEWV69_RmBxqG}bHeUPc$Mw^2dEZKInB;4zC;P7m-0?kacz|9+cc*aaz+aR
zkFoQuTlOea-WBE@pQ%_3NTadO;?}ju6c;qt;9@$aVP5M@sx}bP<K&d%*Pf&XOE`s^
zIkh_L*QGSp`0UJb7c`nzG%+xNo%~D$HT5rW&xsKyPysoASn@cf5b~{?{qFnk)^Dke
zG%VJ(APv^_9ki_RX}npTp0&7U>*oE=0jG;`n26{*H#t!kCnc0{5art^uB;f|qrV!u
zAR1?z)z0}P0}60d7gi=A@3PWX<<a-F?^#5qTc8ys*{_&7O2;l(+9#jZCyjHps8(C&
zXx;p)bqYaWp_*E|46T!JGr*FODs0mYDW=SyT{3;eJJ$4jw5%y<HrSmcw7JI1M3O1B
zkb~(8WWQw<?QJ}Us^#9MuB<rUqhlJoQW{rB*dkg)vHotwk$_w&!_&~wi|FLCdOGhx
zKa=aUdCF@fG+b(8^A<kZ);`m+yT}nIPXP5Wc#!6iU%H?L2hp)dWnM?eG3a|vIEhIX
zIbG&p{Fyls+OQFhs@6m8DRVOv#I|!e>f-!TLK>p&>~bY9t5zApzl)4!o_C{#%bAO4
zUWvr$=pgq~Iwu68!Uig~D#1c9UjL(hPzXdsaKL3tBOGbXvkdzFKDRC}qJ3_uBFL!&
z5p2Cm`s5^;?-K+=IWBGm#bwe$Zd|qAN>;r!m#A*iUg5e7y6C1(ztzT2ZMhaBC{++1
z8ByK8ez%M!<jLbNcN9LXXLT9V{0C=Ysj88%H>FOBeiIvshYl)<5WyXDFa;<zBXEI3
z$20B(Ok5)&<5Cmh;#%H@=hBMKEmTgP^e1+lI|a~?gjOGY+FuM3UPxh2o4?dvQ(7GQ
z$QLKdl}vg|+%zB;U)C>2JdC|+^AcdTj`Ar%FvFs2`LTJn8=9zLK}e({>oH=1{Vr<f
zv@m(FwkmSlxr>+5oNTu2nUyN*!%$^o<T%mHf9P60;u}y%%{J=kS9e;M-MCk@FK{zk
zOKu5)>PLbErwif`p?h3iQXLKm(QIARH-~71$Kl&el<ImysxKevnr3mEJz-v7NCo9>
z>L^F~sgp%eoTQzg@|A5>n@cu51`H)Qbbg<XFKeN3-hJF5WYfVQjc((b(GA5V&Wtn$
zG+acst~+YzbQD%s54)J1)577|L4_xAfGV@!+<VG|N-d?u+uX4TkvZ706+dD*pk16e
zR5I}`asRNVV^5Xa({%ubT7r^P?~uS|HZ$6HPl<Cn02OwsyF76Lh-r<R2GrJ#CP8%H
zz6EPLfk+x0gV_&Pq+t{^|4EkWjt-5--rdIip<^kn#yHy*_$dQ@|D-oy5{U?@WtYf;
zEg-|%PL4jR4#_%-o@R$bRMI@$jkOy9w#_aMq&Q~C$%h+#M{PkNKJJ$fq8!icg;OKx
zV5o(n60sZUH}rqj*|74rsV}VJJlO?E6O634qWc%l3OPZ-h4Q#6RQ>2eZ@e<ZMod%R
z7kg{-0_2LZ#TuzT7HR;Vt>tp%yp<NCZSah!Xh+jvB4W_3UtbJ=E6zf4RU`e)pC5#i
zIKbn7LW}uA0UueB>dKBW=t_H%k2=`-wJusV?fbR5Nr>qFKDA!f!t_|Djmt4<)(QxC
z9>+BuZB-Omx{?pbl94~~)CelF=1Bp6f8Se|H_<&GdyFDQ2KIsJj|ajmbP6XFw%0MF
z)}e)3o3Ki~1LoGpxUh`>SE>^r3LC(8z}gnS0H<mm<Y^uTFk1b1q!jSfr4+p@NR8yx
zgNkf<mcie74%g)?b#X_Zq9lNUmD#~AQl{bx;c<7pR?v_gZct67y>Xm{{z}Ki*-3N&
z*afHwrecqF8_!Tc8KH15TH#jF>fLgPdC1`t)8nxnYES|d4#!LrPy4a8tVZ+n9?<%n
z^@a-AXurcnT!&p5?3AHEo*dmJFxA};sHX4EhPj|zGWDzfz#FH>12X=O|Hgn26-NO!
z@q`f|+N~;|SIvTU%DhMVeR$efWX_`w0rQW^GUuhVI`w3GA4yOBjV73h9YzJIp~6TC
z!um+dX!e^{Zg51Ni)n8EcQwd+uUe)4M4JU{eIN&(Wi_W557V}Nm*CG29nhk5SN>>O
zZ{qQ~1n}E6eFxOOYEAVMBq;)39-dh@(W_yxamBV$kqC>KEHeZ%y|TEbQ@H*|6llmP
z^|BTo*d}TmE*;$HEkrE@SS71CQnV6GYW!Ne@csKO4RfS9PYT34&m};>da!i1nWRoh
z$?4`d?R6^hKhY$Uwy-0lmgsngYEm-Z0VnZjVV~SLo3c|nFy4<Mse^w39V7xZqx#Ic
z3Dw)#Z;K|@&Jm-vkZ2w*FSY{LZp{U1n0QsVdfjN-+E;F7fsM8>13__(J69mp50f^A
zlL0d>y*01nbS5H?EQ#`D+yQ3SIlT^qvu*881sv&dgW%KwnOqF~^jyt9t}+_Y*4oaf
z=%B0dr%<JKxXz1#Kwxu=FWWxXey8)z>wROZXNUje>2_j2O2PelV}(`V=RKgZlLNum
z%l*RV%0%uu$=k|%Y3cinKj6*Q)@4UW*rmf1eRoff|JyzT!-mC&-}g<+#Bt}V|9>wm
z2mh=Av;Zg(Ob7NqziRxqiuG?5z1S>5G~er5!cGmakBo@+wQ2KtepagtKi<YjY4sr>
z7W;2sV2e_><v;HQx>sCb&etIySDq(*=`?f)nu2)2NH_HfO;{Tse&23Bxk7pHxHiiZ
z@t8N5D>pShsWZxar!mf;RlQ}ftJo};$n$C=kR_m8w{zw=<q+n!W!gm)Lt2+oBC(QK
z<d%lU!BPGCU1B2azsp{JRmp=AOc57&%tSZU@-SIx9yQf*X&@?gQvK!ICZH5GyHfZf
zda2T|`3vKjbT<Z`dj=AU5UFnzyFG{rZoOTn;?O<*N`h%;VY^@~QEpoMi3!*5iV_sa
z_x??5y@1XLPmEHEP0j=stD9NK$gh|ECw^cCJeWZ_3aTwUt`cgyD_xes^es&GTS8n0
zy?YPRTr-`93-oZ#%h-O}L%}YVrp5Ex&3F2&Z8~>?laz~_Cm;4`03-D4H<ztZ0S$x}
zq6UfS0u<nkt4bm+=sBKzA#21uWuap<i_`vNU8r)#E-e{p_|Im$5PR+X?>b=v9jSh>
zYhsiwK|~u$DPf$eAj*CY@mXs{RGU|e5^W~y+52HPW;kW2MJI{R_0h4~P4J}Qm@l%k
zi;jbFF+eS6>3ft`8b{yLLx=ya2}JAVUq2uLTEO`~Yr=nuMQ_MBY>1<Q|Mm3`>Gh?X
z_8zYLQ3M_2rj$qdrpba~2OBRMXu9{XqmlF@we7i%KXWi4=7dD%jgtjOuj{par@H&k
zXWb>jN^)CSrJ8r^CHuy}r|aV}0fFD-k~LQ5K*^eG*i-vk>5mEy4gp<0x6jhue7ljQ
zQ=qWjb}y`v{X;LlP5wXc=B+0&m%A<#dMnqNw=VTP28biwcI?MIm+m$?D~??b&0%M!
zP^o;*(N|aY-W%Q5_5#-%11~Od-CJz?<zF{-d<aWZOXl9~c3!-d-CZ3u+Zhw?C2mV^
zM`s@$-|Nk>0~g0j4~qP5TcxM{44LN@IR!S!pFeAEb$ZtSxKAB#y?8&rICpgUV=4GI
zGj1I=Z@?e>YrJ1Rv{b3TADzE`k6fDjwAN&G+^`qf+LoykY#4pi{g`Rl@xvds|9(~(
z=Os8lrF?p&d^)5YUViA>y6@WZf0oB2T8b&F^Yh|89{K9V&djXr_SStoe)wrya=fYA
zzOeJ|)_!;Ca{1c4a9d)rJ0Vv#u=F<Jl6O3*K#AHj(<zevkf4>z-HBFT7tTk}>*pRo
z8<{7IEY@vSqGLA<k7xTg9D>lqdaf54p4awo1mHT_@~;Iv1`L=cAriRYu%;5>B#ehH
zVLwPbB@pv)1jy|p2sDPIC~zE;KAL1B2m<D4ogg_(Ks2($y1VBW^&mJ5tztL`p-B<c
z;Uh@NF!_=wI2yB5g(@l;h9RpgG!nB`3Zp1=bb*noC=rPkYYJtc9xGflrD<{WFftkA
z@6dYWkgCBsj{>lxIY$11xMabMwm9>AF!FguaX?ElLo%sX7H3!rtpP<kF&rgLdO$Nm
zSl!r)Sqa413X4H$w1P<0vnzPWSX*2ctwC8<2bHWYEd?1hqzY{Tr(m$3F#$&+C{7Jj
zN+zlIUyPHo?0GnfrtCy`gs^<16`vAFlod9U(x?;@9Z|`D$N(TR;a2tklF33_Krz;)
zEioGuC88Mm6P$+eU*H4A+<;L5aEb8Ky0jR;r~o*!F*j|A$-i)y;52)qD>=Dtq0!1U
z4x*C(;P3tmzVpA}8HNCOgs4+2CZSQ&M+~w-7fo46#s~crK@-`>jI^jz403#g#M6M#
zc5oP}maVMGAQ=zY5=fj16h_jmCue3%b!a~F1yFcbXjVFnC{t(VePQT-o}ZyuYSZr&
z`pKJXQU;DaNQ$U|gdA)P@BpL}Nj9&TEJ)-DaS!O8a=}Z!KmxA@jh0}+s6eahC0il^
zAU?TXoSWEI=XS!BjvrSp!+4&WquKkACOZ=sAuN<L;Y%)U$izoN4g-ED>e(gQYYYJp
z35>N+w&p0D=43BG%0k_Yp!IRsb!mYB0WDroXcmBBurL}I#A)jy4hoz9r-$;nSRkMW
zZ0<eaiK3!{1R;Pd=s#p1T}1zP2f%GervFPdXB?D?4)H%joPo{?%1)4AurLEU$L&W*
z{{I_E3KD-rp=r%c2SxKKXA0ueQY8Lu5H;zeMOb+b8jAyXkGxaG2Q+kFT(Xc+Lsg-T
zwejoI;{RctVlW<w#h8f%z*YHShh#YRf9@Bo*9eBE*QG`LgOM1FKw>dsLj4DG$@8D<
z{(of5l_TlQl-hhlDr+u`Q-Lw6_KGhzDP9mfB^w~J6|^Rk)XmbUZy7izJ1Vjiw5FJJ
zWJyn}L>g@lf`5iGImpY@5sA@^4vgpu{ovV#w^GEF0c)}qJSW>Lq6d;+u8%f&RRCy>
z0@fCuWvL@+)hLN61KXoaIxj9G*v!~C=iio0o>2*J*ngVoLI7?fm6}DNZOzRmMTyvo
zMh6FZO_*6k0GzWu$;wW$V6d<NRw?7#)Hp4@J}v#9>3vY34opT5O-83N7U`o7GO{q(
z4g;h~)D%zhe;!a4vHO@Ar)kxth5XY)JVqFf1s0?6p9NpPQ42RR?=!{#h*?=CeFz0$
zs{l~wL0cgb>V41<Er2ZP2x>@L8YZo|(O@tUl{wKMt>$DuK#Q!owV{~)4;?Vg|9hPg
zgCRWGP#2Q@?_vqdsxa7@SWE_&7rDu=1ZR}!ua4`p*!Qa{ca+))%d41h=hpalK}nJ|
z{c0zF$m$jhjbils=V{sbH>wNYJMnUTn}fgI+xw-F=H+_F0@Hca0#CL78~gg}aXn9t
ze@6Gw(r=TNZ@1HYJ9aw(J?_uujvCw^y|nJT$Ght8On>129#dVw9J&cWfq){Rfq)Q!
zfPg$~8QdM5Y>XWoZ0J4gY=5UXC@cu#jpV*l)BDn&|F9c@`X!5|$107sdpozSS=?o_
zKHbNHs_K!KcL%fw`kQ4~BIq`d^nNEZKe`LHmTrJx(>8_G>U#a!;`yB4eWg5|ZAT<l
z3#%<igN?VuCfrenlir}*8WHoTM&6P#lFGe|g0s^4oOa&4q*k^`thJqXkUGH=U#-a;
z4>GY>*_0z)p^yogk^Y)h^khMkeIQvGEjXH6DY1U_Sz2_ZIzd6N<}i5dCt9c_t8S(q
zrrU%C?=%t7y(O&#0oxYgd`T%z%?QSQ5E6V)$71S${ypo#9A)=zE0c3Y22p0g6unDu
z^<V9Y$NA9mOl_;T&e2ySt|}oN{Z7I#_PmJ|F*xC>hp~rpvDBtQ|NK7@%PG27;cjXq
zp+1f0zcAR@7N=`cbt&w}5oBt!p0|vzq*-dL(I@6rJfLSApE)>5a?n?Hcuw4(yaoJn
zzFw)ns~_a`)C0|=5^Fl4&JpCf7#BA9Ww~+3rv3b#Db~FF?yk@!QQ}Bb6Del6$0iV^
z&GAf!!%W{gdK6+2lGA{VhYwfnFr1EvbY6hru~Fb%a_`hY`NFmGNMIPrd(#SyCW)|M
z4XfrDmyu+#4aW<O#zh!WfmoPuAQD*+dR2i+n2F7GhYWwb6~#g^hX&Axm#4iF#BqUv
z@eM_mS;1kCO1i}q)h#ytQolB2cm;VJP}HgN(5c)YHvODF-+ns6h78T`)U0=JZkoI!
z;Pt$Fb=gnd;}2an7TajkcElNvMAvCNlQYFoM-&^1EXVE_Rwn|HjzpKiO#cy8*NSjL
zp$;|$p(K7-AcRy#uCzFb<YaEB3>B!2A~u1?Odl&e8dB`sn&2e=SC|SqDS=Y?2uTG$
z1c{PD>7WYy%3p)|s#i-quUNF6)pLjM%AP|E?b)s8nMbFqMd7}lRIjc6qTCyHF@<vd
zh*Q9vWInG?l*vQ=Mq<8KeKaf6?YD{ppA!jI*b~ao_Wo7N!Bo_`&!_3TO2a)eME)Pr
z#Aepj47;<nyC@>Q!^$M1k{Ax{91fcIt6QER^9^Sl93MK_Z}9(aOJE79krZS=Kn8Un
zKxqH5C1*<`Co@wO7bh!w3+I0f>Qe9A9d#t(d)gp>Ag3d)F`{Zt2WgdU4>=b$^q17r
zt=Y6D&IU{&wi!Oe6$R)ncJDL<2yj0Q!`0MKT=2vI`%Ta0(&%032dvH(UxJxy>_^-|
z^x^mw+mnleyQ`Y(Qf<3;g}}#iq8J@(O@?~kth-%ue|$BO+6?w<5P!SP`N+tVf7~`s
zgRR&MO-6oYM{|yHb@g|*_e5BVS=e8-t@S3?$z~azx3{XzG;P(YIwfUSN^GXd0^@<)
zBg<ShW;HU0-{lp0i*E(-k`1+GXb;u-S-U6fE}7GkIwCRpFOy1*7fQtFJMHfxm38kT
z-tO}COG*R0k4Cv&?*sgI(R?$N>eIAIwuD`6qfX)yYBH+I%)gD~=o)G=VeJOgS=Z>%
zmM&u+@iky(L`p!a*;CO1%=X+hBVMXsZ4|a7EVjmUU@^(JqK;{vOEPR!$tfzYbJ}VR
zCTINi_0!5Xvngk`GI~Be_cLLSYo>eB-7G9B78a(iWp))GPbbbEbjpZ)($8-;NuJL{
zh?qn-d8!f;K<R)ywJW%4?6<mp9)EmnTu;>I2oAuawoF{(t6%ABw{mseoGf2EYY6LX
z@*s}ans+8-GGN&AheZlTzJDrQO`M)hIBcc%OwY)x?{vE|@Wa~06W2>JqsR~Mi=BUy
zPX{-%HVb^Oq=#hoM6N$er#J{CMu_e0igKT_F<^c7YdBOg<kkd%OFZMBA;J%!aVd>%
zm~0?koHlO1`(C+O%0PWN8+;%6dG}?fRc?CWL=N|-%SO)2jgLD_dnb7f-ToAnj(-*b
z<hdd`oFT{6R~V7xnw{1z6#;_?Cf=2#y+RLZhO15^r9z(`MCm4#I{nFveNO?cpQ`N0
zB&E!mQ?9Z&c_LzsZ0>UMQ!1p~C@mj&!b#Oe?8A+sC#&bFir1MRCpOvOvwCN|+>77)
zMj$E6O>&Nv1kw)iq}_U2VaFv`7I<rEqDM8iN1k+VOctw3;j*XIB);E$r*&q!L*cjr
zGiRXJNSU?*M~zar$I$o^vf}f7TZkOL%=d8%{CR@oaP7LKoI)nlDlF#Xxqd*RkznkX
z1b@mqB0g_ca$^|e^L3E2v1uRcSPHkcs_VwO<D|=?o$Vd_v{s(y*FEOdBAdH?|L1Ac
z*+b&%TI1oG*7KbRVN?3NKxIjdwc%AH*^sKpu;fWu0YPk7sBIG(v{3HDHPpMe83RRz
zev10NQ^V=uiM75wTNj?r)P(Y%)60j7?HIPMY^|k@DY#ViA;$=lHpH3zs{<M1UIu|0
z*{tT_q=a#DV2fjVWN*zjR^Vl{BS#ZoMZY<ky*8-(-mdpnmvMZShqL1r8u#z3ocF%$
zkLj)tAU~>^FGascG0&%tSIE*W=N`IEACTl@i|wfyUp?P9GOQxH4a2MBVbiXI;IVJo
zrIfK*SVs6ras90?tNbs+6+f}Y#phmmI$sKl6OxcQ#&lnbgCKiQ(7rI17vy#H0tdT&
z__z_O;y4;EWBg<Txg?9LI_78p+B$6Ywg;8RU37D-3Wn*v2l7x#VLGY9Q`hGa7E?`7
zFMU4G!QC71y2=mxcBfCa{jvU2_p7$bLyqgCS^@Lm4`!N@Vt+!5w6lJaIv-5l@yyCr
z1%p(J8qW|x_&TrM%*q?-!z*9H6fHSuIP)#qhNC>?*D1EVu8*gvxA5L<Qn2CR-H35_
z)Z}*o)oI?68n@xkBgexfgROJ|8qA)jtdYa_*}A`<RV)`&re=GkXKNgOWfm15PY5Rd
z--1s!bG{cpPNuVYRkAsGzL%mxBrtu$y>Hr`T-$l?X~N;SUwa}J1_B=LdbOUnF$IYX
z37^MT7P|%9bA5Guy?!AxeIHEs50Zg2bbt0aAY5$k^zc4Lpv(6SHo&Cm8p({A>AZ<f
z^%ZI5JT1a_%hGKWqUjl_G(}dgM^^u-UcIxcUKEy|z=g6ZE=Wm9b@eZ=%PM_ne7!nY
zIP0psS`?d6g(f@Cc@L4@@b>{WH;_hU0ZPg3QqS>)wydeSzk&lJ;fUbMOskd`$oj^v
zyJ30J%5H@=XGoWoEGGqWDVLPhALV-n>E&8AGDpeBrAmn=ABdNXRL5eW&6Lx4>h^vF
zPRoD-(xRkYKbtQ_4(JWCnzF?NwYW;uF<g^u{HrYqY?oD<^AmjWW8F6#sds?s7i<x;
z4J<hV&}x6nGq1=k`f6{7VO?)P>oGmOZYz)@WT1u$phCm6@aOoisASxk-a5wny|u#Q
z*v&TFd&JVM(+&N12T59W-#1UsE9}Mc54VBrZpb1~PuD0>%lBK^!y{0PAtdgdE#O>`
z0DHeDDZMn)jCr?a(Lms5i{54q*bIc^c(I=sr|0)QQz!)#J+w2Etp?lL!Xpe87~Q_A
zey*Nl9e-a-{i--7>iKO>a)S<k%CZq~$L*`0UF~b~CX9<3D|2R#a;l@+yUpY}Gw@RO
zbgRE6gM}PwH2$Sc!+bR4Ku1Pm^8ZXFK@&!T6>uN+eLNEc)Z_Xbk?|m$hqQbhtM*i!
zF2BDH!-~T6>sD(MdI)G*)I5CV`bnOXNjA>znU3VK>vZ_0qyGCv_$(6Bz7x~|dL4>w
zm+lD(&*m{T>~O`P?(e+sJ4ev4(9H@#VjkpR;emiFZAV^g=mis-3nA<`kT4F*pO1H<
zWjjk&i9We5!*_3@pR9Sh0EupSTWobWZ1Fr(uNcs7wnHT%bAqmpW&0}my5}Y*6!0)6
z&>-alpNEV8^7nacxvM;8OgmH9X*>3>^!aSRyCKe}!az8L#fTse$PmZrEUj{f7(*}}
z)BV15JiH&%9@taQ1ZM&Zp!uUwk3OY%SD^sa!edYilvek41i!En67dd%RpBrr+$#t1
zXkBpk9Jb`HV2D$1C>L2wBn)doSr^0!;{sA3p9Y2!v59BH^;6h8y@%zpyG>~Eu4Cce
z-5&noN9fAvL5Dl$tjyt<dtQGSkh%3|iCv(bVZQ3&tw;cjs8}BsFV8jGBkIYeNnP-F
zR_jKpij&Ei07W-Ar_$#Y9`<7PvFj(zjL%p*D71QQm&?v}u<~;lhvFbq9%=?LBKa2t
zf?Q7EcJryc62DQ}h}yzBITl4D>8At)^$OJDk$SS>Y-)}Aj$ELek<tD~aTL%b5$Oz7
z`<D<moEruX;Geu-mYOgUWo@M77$sED<;lu{O;ZnbPRDwOXC(eHDv40y#cwya&0q2H
zLHczHA+{=k28PmtCL5Zt(Or+jnK~P#v6!+V6!i>Y253`CnFLpl24A>$dSB-=_;`3p
zjh}0=Ph*gf2=I9Os~pehOn5B<VR8B^=e?*0Akz}Ppo&Cd6Q|rilQ_waW`IOdRh;g@
zokc}aEwN^fXv_Fsn3v1mgE?sew)0Y&$UtI-^;Azuh|OM3Zf2Qkt((6k{oVeq`a7e^
z2L}3XLMfjhod!+yUsRtxJR3R+@`U3AKppqw-m2!Plbl-!<UHBxh0Eov8=Ch9(r<bK
zqe3rY=~u*x659oGWaM@svV^mN<qJJ-rIH?b_~IC{-$yD3-|f?&uyuQ~`oDtj!ob#3
z!dESD7%Ua{Telt826Y)$Gt#4OdowWmykGE6@}lg^%l9psh9;^SW8`Xy##wq^HNT(W
zr;#r&w56Jzz_sVkjMvsczsN-PiT+|K4GsE$CYos+8y}+Tk0@OMH?~IW8DXuz0ROy<
z6mNF4=1tn-Xw}%}cv1Q`bR+oK=sEt&U;lT+iHnYv*;waW{3M%%8}BtB0?jLx->^wE
zLoPLG4F|*Iaz43=97i?VBSmkXeaAkN2Z<rXaqe$Z?q(DNuUV&uA28k>2k9M{mmp~R
zDtT_g>ThiY4|P@fadj!0)dsbfC~C|wA}BnyNh34WWarQl;3D9Ox|1lOq@Y8N^#-&f
zoL?_~ybm)G=QrO(NW85@js+m9)te3uC`C-}9d9QVc}ranG<IY-_Dg)MmMb`>UVDK7
z<u-t?`Q0%!7mHeHRV~=YOm)Ty3cg%i<MJc9T?J$022N^so6eFOud<JO>voRm#mg}B
zy8ogSb74H`BwQ5AP_sqi(m~Ocb!d7BRwOd%ew5rDcst<kjf2-QP95lXg08dspRy62
zikmZMY38)4`0o)FcEpa&l-nfB_`CYI37I21stiuGyAvtC;3*O`vfk7=eY$qZA%f-b
z9p`+936iWdi=VS_AwK!@LjAr7eE#NT^axn6f#|;GH}4Cx=v>u?Z(LQ;pjPlJo58n+
zJWtWM%bM7POUHv-Sa_SfRf*B9l-DJaP50Aldqg*cZ&<$V(Wqd!)&SmJ+9PUk5CKJw
z_l;%TWtv6c7E9xIFOf$tT+59$7QaYn-QtF_$;?ehx*ZSkxi>)};c5O^2_G35qdyv7
z&90|vG^iTF5Xt^C*fkt{RUZ!nb6#(N_`AfCL0ogB_Ay_*nt+|^;ppX{nuLHyZEumq
zCat3GFV@;8+@-6m0m4&kY%{GuQI@Tq{;W=l1-jfmaX4Q^4lWJ#(XFDTCk!q%gM_Wf
z(&34HRr@3oP6doaV+$km-tYY~OO><~)cKHNNVIUqDTRWMx4Mt9Zdy&cblOy>(RR+N
zqp_4PeYKWF(2|5>9ZuF81E=p^iXh*1qU3>nNLjUdHRm0Rm;$!cAF6crv!Aa%H77sS
z#`b-TI$!H|&bZ*1y$?*}ZTgfo$p-coJ$p(tO+K69-Ed6VL@{Q^W`{s$oEmHLxC+jK
z)WHY#C_;Tl=YpM3p>0n@`*8Npv_+b=Mk{sqwL~BbTT(0i8wP)*kK$z6hQj!~fDLCh
zI$Cd!m4~T@RQe8b_Oaby@AL|ppxHLMtscNg{|ePQ@N`~8`Ew^F#23%@5(sY<g6A+R
zxCMV7$26S`G=)cka0|m-7V{>_JUr!%D*TdVyf)G*#bbH$U6`?HGCW6AI?7a(R~ac~
z5g0%d$v+Ms#_I5c7Vj7)rXsRAHP=WhFHz+pX!v&zJL-3%VQfT_@hJAupJ_aB8)<zc
zh|70*r<@$O{w37(6rlkOegb9avLjD$>XnaC%CUCkgVCUo=3bKZNLSry@8#~cx;#*n
zcq`GVQxqB!8lFFTxlY&7XcEyT?=2VTZyc9uH&z=B$#{RMeS=jb+P9TZUj*xm#+n37
zcP=L_NfTfw3O7>*)v2&$M%=EF+~y6Morno|Q=+dA{G9H#I~t$9_wWbd@26M=PH|Zx
ztqr!79u$6j23I_r!B5rEik%ajOnCNChw#S*q*FwzPVvieiTMdDwYpe)bAN5eASGo5
z!0;R<#!H&kb{5anOTsfc`PxeGVx$oJY8$oQDpVR)5+n&iAt7k{x**pmINF+^`N-{r
z7cTsbbBUKE%R?+yotLM3nx)^G^MJsa3T&z)G;EQpD{4r()_t$XGLr2!T)Rt<Uq21R
z1DgfveDH;MEc}yd3g(sXkHVMg90^)Grmb|9Ch3y>aBg`M@G0|_tbB{+0{3Z^p&LLo
z-{fa3H9rH5I#_!o_E{bM`+;*XJV6B;mFk+9cuG&pc_0)xKVwZ}K5H&$o5Rf->n2=R
zSvF5$$@D3$LQD1R;Nt||C<%tFV1$~FN=ExS@kdAAoF|Ex6oIN_CqiwLr-;TOa{32e
ziLew~xIQ_P`$$K)#3-YzL@m59J_Lfh8SAa;A0yT#`(@TD^vWi*Sfu;%998F->Tx!l
zmG#``>%Cwtm4QJKk0^ZgPfs`5`ghx<2D&#DbCUv-JdF0;eAx?24KL|Lrq4?AYtzJ2
z1BuJ*sTfX-so-MM1f8X_AF${~O;slc>``U+)ywn{!la8Zzthev5Wr4Lg+19I9jl6u
zhDI9SNB&o3XB`$**ZqBJ2odQH>5vWy>24{hLFu8pr9oooMv#<L>F$=65@`gaL5U#+
z1b+vgxSyM6-uL~zGuO3e|8e$b&R*xc*4gJ=d+i+r)o_P_CTzk3OeD`aPbzg3ktbE0
z&T&Wxdy@w%u0hpebW!78v=oZJBFGyN>Z{pt4hryJkkj{*7QInZiHJMVn5P~J@_JDY
z64uYx<2$*`DILK9y%Ux~iRfL9WB3fqa;{7{X;9BLo}_%+*1s-#Rk;52V0rx4j8W>=
z=D^z?IlLW{((}1Fj&@^tX8fn-H?^U7s8#M&+ql)qAKr0l@2FJYL}8l<pFb2?46xf<
zFI=Eji!A!y;r6Q4OA!Bbz#w1GYzO)Ut4YZO$F}Au5sRR?r_Jz<a<a$Ps?~LvLR{q+
zg_e_fKOb*2A*iO`ajVO*<VFMel)Sh+{@_r|7Ur^VhmM1mW@?tqcS#JbfhQUPf?DXJ
z0fG#6JZ{N}DXbn`>_$8j+15L6`k@VL+|7=O`1VI-K8!+HD|SbHlSB7yHr@nEiM#`+
z?|{lw(4Mj4Yv$JRq}>0Ya~52tf}+j329vObNTl#65n=GRYBCn)K7!DWE2T$*v{-$5
zo-r<j$Y&7h6d~KNO0o*HYu1x1dSGj#f|-(nUf`?3Qe6bD!d|Lk=85&MtZR!ontr@`
ze@@CPAt9^_Bfg6HWyh?@dC|5*C=L_&-LiG~?Uf2sYt9Ja_FTMr&&<k(F0Zf@U1*Yd
zON{99YCkuwuFTl<5W~-kgvaY0^Nna&FE-v$>AF(&E~ZnkBvJol>9Mba6jTzZVeT>^
z^7b`ePN+oE59v4My}Z(2cgt?|IvQOV1N&Ac%lenRx6KrNuOPTO^8Imw7Vk{fTgG$@
z%lWrqJmH=cw#AHD4&f9#ewP7{3->6rC+gqtil~+#qS_V+Q^6+qyX;;^)sr!Zo5rN>
z;y6ElYClHezos`?*)w$*o-@4ry#KUnk083HOR1t&Ic~7P(#3b``<q`wSKG5!Uqm@~
z9N9(n%TUu}i<3xMnqABC=bxw69oLt#PtH3_FH;F+EYv2x`l$JYBEr=uOm=e6>B(po
zcJL)P3x%2sT3mj*xnNHY6H+{WRJa*lxW6e&=Yj?<b0p$r1ne{@+g$URxU`O@koUZ}
zRc7a_KCf}XLrVi#u5(~W5Lyf@mz#=jQ<s-#(MAsKmn-Tu@8wo!3(CnDA|C3c<;mD~
zPDVSFg)rpd6(8gm&W5f=UBWnb&Iz-!OCb8twQE#u`C_$J2L*lb2fhU~`%mJe=&E$I
z9J=ns3hl|74M`%=Xx4aL=QpxcNKEhF%d5~8gQrag5hl3xr>BzY*<6t-wf*`ZMEOC@
zCqXpMgmrq=7uavC5=L;XJ_sQ*=0D+3*!7fRnO#kca}lzSGu`S7dnOw2Y{dBjQ_s`5
zv1t+GrMl>(AcMo}wp3kvhJMJ5F{H?bbY5_9vM^x2Ic&5z>`;$+NTw^YGafxrppr+v
zLCp2pDW_QP8YpGBx=TsP_YzA-onU?UaC-$m+3OX4;o>29t;TGCO#?J|+IjT(ho#)C
zvK=BS5`jaUWxO9>ALq-cVq3noRBTDNWy9yFFRlm<FVsZd!}Qhlf+{i<&-g=spT!ae
zdmil!@MAu8jWBe{%}=C@6I`dF(tp3la)pI-PoA>pTeDUC03MB3u!*J(J8ns?^U0v{
zM`4-jZx@fN6(l;`mBt|Ct}YkM`8w*pUWHdqGpnveKSCAgl#ycm*hUZ2FMS^oRP^e&
zVi!flHPM@<K9*cc0aK$rDn+(X|F-Nb>$<|;L^QvLzQ-OtGdsXeQSmN_M$X+QhR=0W
zS5)USiQ?GgW*YRut|G!ePh;=#gi_3cDNYQhMB%Rcm8%fi50Wo<kPNU!278gEK`oU_
z?OCIsp37OHDqXeWf}t`W@v{tY!dSx$!l0kFZP3Cyum+}lG(S`ShaWx$)kZ0fjwMWq
zR%N2)=7Upidyh5LXlLrX4~jWj{U4R8)>)F|Bcs|sl-1m;gE?d6)w6IEj--nKV-SJP
z#U`68FS{}>(_uQ4mWW|_zI*NKB7@1>y^<791{D)T5INo`TE0@#jcw2Cvq>v=8!D!(
zAk0a?vpvA{@CBdb@j#QGg-UB)DXc#$S<_OG5^$b8N;91x&j6-M$~2k%FlBrqrV&~9
zM$b)_Jf(j}^l`OA8ijsLRmNE50Qb^nVh=-$I<U(Wl2JAF3FpHJ*@&A~&HGV_qdZ+h
z5=YFBy^ktQFCqj4Hn;n)Up=0~{t{d``1)A~;wF?GpBRhy2R?{eUclGOh}wGIJn`3v
zyspB&z(Yz_E0F_{h<VhMY&Dh_hAD0C$RD<S6*wXrc6g+QLs8Y~l`{_$DOrh8Cr{NQ
zvvm?&gJr@`4@V~Ks+1BpyL4;JxY-1vDr1?+E%pY4IsG)LKUwPwYs{Fo$V8Hq10
zZP!vh%{QWuO3Evx4lWu4A@aTC7@!4{r~U*<+KiBW_vIVGY=oF}Hj+q9wuYN_T~X{4
z9Z%Kl5xsgM;yU;4!g!AS1!f&g^_RZE>`JwXcjAc#q=SJ$AJt&j67%P$EG)T?o{#&A
zS9l)=U;N4_T|s$Q;x&(vm@=ImbvhtC%cx0ilE~oyty3J`h@;)mdV7)QkptyneVD&3
zhL$dAP&rMb9ic!uGrb+<UfsQQaGzCKcSWp>4kgALaG!LUbk;_Gnl=hEYour@25V{@
z2^fT2<|H;pyIq0kRFyD6I7v_%Bajtluf1>U_CT|7$U&QeAW&O8ZQiZ<xyreb0*@u^
zgQ>j`4^wb+U5ZKvp>HU}U~B1EPiXgj;{jNtm&P9&EtDyXqIA~VyGFc`efAt1L9FoI
z=O`U8-VX6e0^9g1Pe3Yx&^HZc8qQY?=%UI+b=aLxni@J=UVf1BzzlKf#1>=2KtbtD
z55}{cMa#$V^%vc#sg#K?%Mkrt3W5cfF4TQx5FbYb`R}T<n)&GlfUK4q_E*pPjz%6I
z^bF+Z)y;*?u?-z8p{U6aQ*%}Q3`L1L;6U?}X<+u^-IRzTMTWjvv|dM(E?cuPB$5w1
zJ@EERplt+cpsN@z_MDtozEq*O)<Ce|{`lZX=xY<-hH3UqF=w}k&BX|IT+Yp8fkmUi
zto<@qmuF0EuRyby&h!L3L?-3BAq0a#OjFxdH^^x=RG$~S%BhgxXPF(jv+VHj&0gKi
zexin(M{!s#=-%{8nhGmWec#L9b;>qiKTxfAYFRXS3CZ@oz7_k$?0AFK(0LTYqO9h6
z4zsE6jb=?2vr46oX38iMoWn4)HxSk$N<7rz581@TvnL_AZG(#OIcZrJNZPP6jauzx
z9^_!b$!G3C;{&!QQ9YYTE|htdGQU_%p)bgu18?8Xi#c0a`}f7fMmgTlLSIvue9~WA
zh)J{)>diCFrVVJ9=OE1&V5nJ02*_#C^LL+Wa~aLLY`Q$Gy1I6C878+)*3LhVeF4T&
zO=%Ht8CxpPDoQ!6Ti;!e(D#_y^5Dng6zCb*!ffc!XMlwedGNM)1{BV?SlP#@T(@01
z*x1K-5!>8cn{4#e5Vj9ERMEZWn19p~=~Ktav4k@!n;Ypb^3e!Uz6e33gBDHIz~XoL
zSLKBO^S~&{m{zj9sI^}k3hUO;%oFY7w-kyZquOsblR_{}f+<Gw7#7?0hBeIbMr!g8
zh=l9ytC9{*Umdz!Q~Q3%&!IuNPILEsnI3&lt?&F1uP}^Kj*qA$Abeta?i3<+o-3aU
za|PD#Go!-*mXzxp1J(e<4v{7&e9)_z5s{7_?yUw!4@aWEA0mw&j`N@nI~>^Y9)svp
zH<uIZ^3N8P*vgk2!6#2QA1yp_Tz<mmq1c@8*vu_Cf>U*oiWkR1xIDHnF&@hsGxs$}
zI#Mp8$hBu%<$Hv=JiGh(u@@gV6A?qHrM##p(Ud*5FrAigf1{2vy~3%aPd=FFz$&#m
z_o``sb&r{lfu}~gOWB*38~@eor6eL$PGHo4%1P2{d>Gt?d0RQD&asX8il^zqTUENy
zugb688cw5hpol4*jDUeGO>kd>OQs74bX)PB8)GNVv-=Pla9;zdD1amnMHvhf3M3?X
z#?WAzdtuDCmCwWe4ox@^EkC^=8l}z?Z0Tg<zrpk?a2Qgkr%kN;Hn7Nx3h>B9;-L^C
z<cPuqX?xU}nl(?cc!dI|Z&V!&7__`F1HAj({Ef9-AJOBvxIT8`AWKI-2qg(LnfsWq
zJ?ECLs@&AWTEDYx!DH5F8s&8F8$tK`7@GSbTIj_%Ps?oI^qv$cB}eNQ<36CFkP@ur
z4heEX|Ay23)*ZM7<>iyhxHX>*3L$^mRU|hw{%#<%b-eE4;nJ3@3zc(}9rlE&f~uS@
zIE*jDy&mg*mTD!VHla3@ZH@FI#D2aSq%7ie(eIN#jm{b|$iNlfDS=cN8YFWV5)_1j
zibtZb;vUs?wi1EveTbllDe46b<)|n`1-+e~-+SHz2GdIGSp01IGEvv5N3U&w`6DfD
z)*`^Lig0W;LBlq(jOUe1QRTTrz4limBeA>&@z&HfrHGHF6<_zGV&heUd}%DVqD>=I
zg3CQ0l`SBcJ>x#!g|1rFFZPPbKNA*^D@IZskiFTp5?BwnV1CK}Ivp18ep<kul<43=
zNb@;S-^gWwa?pElhc&%VL6S~KW^ijG50Zo8xC!HYW7v`oo@ObAI?|XShquZ|QQC;7
zM$)uP_*RYnL~@lxg~;OqCHuSH=kbmCB+svVD0_hmJVS>}fB$*hM=!*+Q1`DI(HtCA
zgGDB+n=DP{devZx{SzjdjG-l(eW}IJMoj0KJ{;6lj*l;(EpME3!^P5}?k598{yag`
zWa8-(xs=bZrE@9StZBv{#B<?T(T&UH#=OTDctjCt|6#;6M7oWMJwzIiaW~DaYc<#G
zlN@aG;FJrWRoC^k!1(X;!W=|GR>+@&(Yt_?3Ryw#!VRu)JUcS4PVzvnd2M!fgs?U>
z0=mJiILofZsX$dAf$HK`&>FsINS0O1dnlS%4IH(WC`i@YD`5)Etw4^rbsW4~#{sUZ
zG4(`B4U=Xv(!<ZMQPp$Qc;+S?xOhn|7#B!5(0G$fYH<LYSkdTx?zW<l=<c*a%m+mi
zO$+eqvq_#)DSa><?(Y}AU$2>Q?;-W9RAs0!X4f=ejbL^Z1N8dlYQ7AGK4)!w-N!%?
z<Z+lDA<=SP5Go-o(Jhf1BS9W?cIp31{x~5agD9}XERw(4a2Ao%TcVTL&4PC2yQnqI
z3MOE(Lz)%o&Tx#G!|&BG#$~YYJSg*BQ{q68NQATpcy$mzl0C}&_m=AUcl3J;XeuRP
z)>D8TLeinSK5Ag7E?~8fCAT*5*cq^wpS)g8STL-g_QLNEGhtl%7=+{dN*R;pR?#>V
zG=frx`<WxTmgM|gDE&30ZNX%?!E`9{=&_%r(5WO$sBfz{zF9TC8h$@?QY&IDTF{#l
zdg##5>v8O8X6H$|CH~kzhuFczpr3WBz$*D2rD0bf6Vr`V@vGr_^04$qyQqYZsIQ5D
z!~i^0IXn_YWBQ4=3P{)jC)JX&$*m@75zM3-N5BDj>p<T$c=F6;2JLe=i86Vh9w*2h
zxd!ASkid6n8rXT+KxmK=g?i(hmb%h%&~mn}=IY*OM-oHvMgNI&Xn)^?`qplN6`1`>
z<o>S*aka)|<Cg}X+lwJZGU<~W#1%Y=beRrF5|b=4pCr}6B$(P?Dfe~FNgpuH(NW~5
zXjz}74AaC2(Ud$|LNC0H{F>;6I7;lHnr=&gw_)`BRzUiR+aJ6MX<pahVI!>4?X1*|
z+%(!Kc9*ZxwR7I7QWh#rtjZ>lqfOe5Fe&gcBOx$#`~_6ZNz%nVNWMNjmE62vblEAI
z9>|S<ZVudF8sl-OO;)6kIOtcTq;$FR2?}QrlG^#8ORjQNGTz^Pp-)@7WFDq%o0&Cc
zLh?YZ!sNGVR0or=qo|RPup8F~PDs6;zS3%|R3Fu(vwLR(6(g6uA4x*M&8&pUZM6~-
zbXzqYKfSi&OV}--%$ux>%N(znO5$&oxQd64ZcSyHB*tmAN%48Jc9%H671-5Ir7^@x
zy8(*S|Mab1d?K%IBsD!0q%sD2l}P9Wk{l*8do&Re)BR{7E^w!niJxvm5~cgM#^#uk
z1wew`Dj!P#NB>v?T=Z4#TRF}M=t~#0r$sf@;(CG-)1fUu|Di2_nQ!9=j%OL~z7j1E
zUkI%%X!mykSJ=M?xPs?x$eDU8GS8)LTTDP0(?s=#WBQTRQ+cc)B){mHIJQ2si4pVJ
z=IBTP;?7+jaE$$jkH}D+TQ|@F+(4!Ts)JkR@ooBbc2h8@1IW&g<LdYx7DLRhdl(9n
z0&bIQp@8VtK+(iphF0!n1r0DGx7yPiB^KFrrDnAKIF|W=X7<C?Dm0WZL`z1b9w3q+
z_1wB34U#lU*jL40IX|{f-!&pdO_Lpq0|Br61}Ff_S)nPApx5F8!Ow6jWh!=)xciq{
z+HVY)jYL|6R~--%ydDD~;r3Pp+kLV&b@I?1FV}zXQ8o$?3l#n<7R<a=8=4NN5lhuy
zEH!EtHqw%E#Oxr?IF0yHba_^cPfZh%qfA32#}@rrij6|Vg!;Cs=k<bEd@{p^vyqNU
z1XmK9irV@u8g@L__^W(0dF=LfDvA*t??Wth_LCLh5_vnFtZa9+96@Xz$)fgt2g`f5
zm_~(1HuFW-(qBvVY}c^)oZnq-?lodEn<f$hLNY1>0@gn#R=K^jgZ!CMm8HF4v&e<x
zcc6>jCJ>wD*1}RRO{T|OTNsaZqFoO$$c;)^FUzVpP-y4)u^R8EHxfOX*<?lEAD6YV
zEmLQr#3<O>)C(PYPN<@T;V()hcEHV(IuPu{U>)pZb7*$S!e762Qdsnb);ONAtFCUO
zftu^3Du`R)!&^KLr9x0u?(QS5n4$u%QN=^*=C-e(V6KSC#%G_&l1p^vQI=!E`1l>S
zWdsWdSE*xMdsF0ywrQ{(6J*8_VJd>de6D?o=zUjR6hg1YtUh8erg-!jL%Dugc5Uc2
z58?Te1Z*MZ@X`G;ZRFiN*R53CCPu!BK0Y=KqKP3lWuH1ixJR~Owk$z`vBf{`wTRmM
zxd1z#^T3lUvZfoNAzI->wBNBL{)1AL-+@biJeCM!>8sBf;Tpv-r@C2@8zQfeHtDy)
z<i5;QqQ%E0HVxpZMv@^gg9J0l`(*k>P@2ee_Q05Zu>IbagCNdl@Z)Ux6$!d4#_4?D
zdl~ATD*6tlXtNt&IYe->)~FH1<g&}Y7P{|?2y@m4-8X?cJ@y`2yb<Gz8WdKjy|9Wo
z)P2Ieui;i2x}(2lT6=nh!9L+p0<@|<SFgx+$sZr;*B&g{Pvi)e6y$124;18qt<O+p
z_ANGyb9<D>Q)cj^%aa=tR>C!1^25Ix*y-=PrIAM8SbwIlwk-bUG>E!(Q5v>lhho9%
zGNv3H&?1ml!7~c(V^1QEeJB{^AoQ}sRuNV0TAyHr*-8=Y5O-`5OngDiuE$Dc@#Ue1
zriTpsk(y^fch;EkMRvj6)sjgr<(^f75D+xU5fJeIAwD-Nh&_b!Ps#mfQlGwR+=2{A
z`!TCrdqXU~@JRWaGXA-O(7pPSueI;`BSfo;NqtJw2OV6cfql|2G;oON9Vl?r-={Pt
z8`Y?z$nF}goXRJ{EUHK9qY&zZ=(AzR{sBKJw|48$xTWP~6o!)OH=dX4L+Qn^t?=s0
zgkRkhriK=DD+ZFPDJ;CfvwpE~x$<b~8Eymy(vghAYCR!Kio<;Ui3$1eum}UjBDpiJ
z8Aus-KB%+5li$LlO~-bgyC@<Qj{<pSAs_b?gUp<*tc>)S>Q#lzpk0sU>i8JLE`bm~
ziSS%p<`4(|HhN7x$OXw?gc>_JlqB_@Lv0!Ors_vo$yp}!Jz*``3-RB{ZVZxK<y&sF
z6r&hf?Jdp_%h3+QL!-V^?>2|A^y6W~+4C+<ON{Sl22U;fw2%p354W~FuGrLpk^Sz&
z^Ut5$@ggVmH4E~5eOLyb{93MixQ}$e{(X6F-y?&twV_ks_2D%uxoSh?m?Uogpch6~
zuPar$kom_sEV@?E;WQf}5wpQ?d9av9i3@w*dDAvBH8zJ1pQO#3MBFpPnO>N>dL~9^
z28yj`B)buZJ)}DR1f;6HaLL@Oj*B@^vL)W?eM8XZeY3v)ttKg4JV(Ua?dTAge2JAA
z^5om_f!Ocw8EWG>Y8`$TKb3h6cYiMX|2mm50+I$&9{9qhl9qEsU&2l;1AKqaA}kYm
zz3V~aW5oMP+rJ&yZ=4~CKpJ_hai3O&l|T@w0C84J1LS2JnT|0-qrLT&a2!FU^Lx@2
z;R|d!ZjCPpi!rPBoZ?)kzja%UIxs2=SSE&8d^62kd%z{eGq|69&)zXnict%H*g@uz
z%|0)b|AC?u!O%X8n+CPoCt2rLv%Fsy!$TIgxV#5Na<A`itEWdejFYVLJZ3?ETmIAH
zfMeIm!n8v=_Jaa5`X?1OjFLv!lWb-R^2dGLlL-P<kt#}5PeYBI8=v9q#B;@ZBPM*7
zaWzn3-Q73cmg%cJsIq=8dr!8Xab5LOQ|#imHHVP3FYkC&X(_MXQb<Rd){doUU>KIg
z+hI9(4h}gj7s_N+lpc(8@h~ZPSkexazu4*ERvoqJi<T1bUyimswD;mmS6X$$Gz`6Z
z$iGA>qIia}etFe?)qc<(<>#r*Ua??Lj5R&IwVG+v>Y_lU(f42~IU$3`aRe{<!DVGS
zr%T?2O17Mneq_mtRM4?4edA@?hi$HI7O1le##=W1aJ<6j-HM&yL1FQynp|Sb#}<|n
z5@vP%uS{Fs=3s5v9ceSWOU6WZHFuNgE<H`tLYPV3^s=yCO8;y(lA(@;ZiyC9tj{SU
z-DfNp{OJG$>{rDhBE!>-$YQomg5^wR+gx_)U19y1pUjcTK8t#1b&+tj6%(py&!TkZ
zB2-<_EY+WzqI=G^zE*1=W1JW~EC}-Fv6V;*Ra`jIwjQ#Lx~T2itaY<t#VUs?ggz72
zlLKk{+n(*x>u(#KFMh%%HVb@9URErdzws*yJX<WSEJwFmLMR*sc^RihfE%vi6dh(q
z`+#eEk7$li9b+u|(vBuq>MIZILyD13*N!e9#N9YmuJMN=JNp?(q$B%#d<Ea>55ne-
zw=6N3e7!!Ns)IblebaLB58oNz$030T&DS@o<A!r2%Y8Y(B%yH8&m|779(X3j=Cho+
zqZCWzSF)nP*TkiX2CPFZRjidjZElp}(H@qrHIq}pD+kF*FJYZr^;C#OCpVv3`1GSe
zo$otiA)U+OPVQXME?L<1@5A-A@-*L3Dr}<Q#baPm=IN6<`L4c&_fDho_FwIszZzU=
zWORQ+h8T@EzCWBZZKpg$hKjvWOGd|oX_l~cTx{aFIav2WN^j=4ZE%C9BfX5)58n&5
zRCUi;M)|l}`k)&5Shma?a%dO`53H9Iif8{k6dPCydi6PkMZZ<m8$o_#{|6`XiW#Ru
z!wu@+r)|G~82W?}NHA3gMi{t2fH!wEQ+IK6a^*C0bb;K4_pHQ`r#)OaAqOI|>prXW
zg;22KBgEYZB?STv=b9h(Hn_hB_zPb8EEcF5urS4bPrvr?*f4z=uX=(xjZvnQ%)k;U
z!95cCLHVRgzc-HACHv7+^0HhRO2OLF{d*SZlSE6U{Kjnv#GrVWkaWDgHUSi~{xj<L
z%E8hg=i;&gvE=%`uxdvz^62CVqVi#~mKqF~BqIU(RAE%E;G#+ud*!|~GG4N$pfZmy
z%)9clD*wq)iq^el(zM#_-U&Y^Q@(opjM|zdvLj2c7Jp!v6chR+I}-83y;1ZUiMD#}
zpo%D`#;_+H515uPR@7dMGc7%hy6@MSj}v&`d2DFw#|5NDN;`Y=STL)9&NQiT-T&!P
z?~L=h>TeLUn)HpT2y)nBLr(4`^52d68;AO|9x&(=V4ne;|1_$JlhYrY>Wn$!NfNYQ
z>8hM9aj56k>(|qKnU{-^u@Y6Yd<gl$Q<F}r05jLD6J>rUS_{j?H4~X5!{+ZY`mI7d
z6!5K*K#3hMb%bK6^`gCDxjp@*V_9KVV$>sQ`VBUSj3pf^l3b(ooX(KmSjDGBzW8Tp
zLbDt9HRT8ks?3)wtAl;02|y8UD2!Ti8Z3?zd<-m77{mH)pH7s5qVROQAJwZEGOHsE
zXC^CmCX+_VBr^VBHhv(;yF{Hk5!I-tF^TFfxU-u?e(|ArZBA$Y__<Q$=ZDtI`7%y}
znD@TU)2x6u5AzC<Hv*GE+S<aV={;Jk@|BpRl(QVhy1@{`C#Bk*Uo#=xgrDml*;FCP
zI0w=DmDUjPjx(l?rzG(_(o_GGJn`z3F=)?Q6XS}8c%d3Sw*c}WGe{_!vfg?zmK_D%
z{)OxtWQO_n58P@gm`DCJQK4iEFHQ7ZbGu12=Y&M|`C{jR6qDZ<PfA^l>uj0)&1Nbd
zx}WXd+#FB0=+c>#Sz`U(2!{oZb{!l~CUK_;Q<F484->;d)P@q+Tnn-JnMj<$PUuff
z?>%+7H~Nbp)9ObsK^U(9h)E2@#2q^+n=2T3b*j}imxfodC?<B&5xq2WLiP>mNzBaN
z{1OO4&!M#xVwg6aG`7{!(MJ)VauU)hVU5JVs702W#4JSWP1k5>67nhk0!QlP0@~NT
zvUP&~D(*WjYR<S>H~aZ^fFq%++`~t|{f<lZSzX@Gqb&=^T%Rozw+Z}Iec|+=f4#n+
zjRjr#lhc`kqp5zNYeoU7M@iyP!a&WY!0(YLH;*#ytMwUi!;<yu#9wN-qi(L9z&a9W
z(=UeVH=18>4eLpEz@EE<oARD!=KD<La$`|Ue<)w>-dp9B{Z!w%V^+@Twy-XDpxYVS
zXF+#~(QLMCng064@(rfCG9nTI@@;MhAZrA1gp|Dnqgo(zyaEP>w`0S9eFB4SYX;Je
z4sH+!H=}1Sogl6+Ze@QLaFnAszXKeq47dvBzgh#ofk7Jp*2o27=gP@(Ti$KhY7}r2
zbsMzs5D>`z*6<ua0a;xCX#1bJTyQx)#iLbiz+)9A69NLs-#E=czWqP5!Cb8%5I0xO
zKR<s4ym!yW!`bOEG4Q`Z0O{|PGN4y*C_M0tfgpSg9R>cC5{SZor(6P0eQ+qe@F)&!
zomc_Dc)g7DF69QW6&wm5Jc<r>MP)Z|p<_MnQfh!xgF|`z|3@idhfDdh?aE#2{-4h!
zUkWbe&&uondrF2bT*{wC75?{>Bs;j2KMDE&Hwti>{{0CIiUK?bj&-@Y{$J+(J0>I*
zJ_fFO|I@yI$M}`N$H0~Egs1MFCEx_uKq}?mF&>@pF>v+Ewc#R32w=tm4gVcO&;uU>
zSHSpA*DPnZ0RnKzzhjJh;bY(`ctf*qCmFynBHzWt^ux!%m2gJ`xs5Gc+vp9#$H3Jv
zaysUg9bC-iFnkPL5pxWvnUw>bI{dFrWsSnez*RBPo4s=QoeCa@i{XK*VlipOXdAel
zqMwA1fve(0=xhc2v+13JkAbUVBB+ixe2nERd<<L_7Y(|+bb#9_j0N}@xGK({ncHWV
zK|qMwM7*Qo@~`kQa8-PF$E$w@oWLMFT10s9<{$fC-3?oJcfI%vqx}dz2Cj<lu4wZY
zrc(|+2Cj<lE{F0LW=H`(2Cj<lW`O^Np;G@h=3n{XcP(-^<@K+|Hd=og|5pO+UBcaW
zyMGaSy#7J>_nY3kP4B*$`>Uyh&!47u-_zX%+<o%<3qTWu_}|ZgcbngR#`&wcNAQ0%
b|K}5rx-tj|#Xuwlz9RP!5Wt~81VZ>9Im6ZG

diff --git a/applications/ColossalChat/mstt_advisor_20250519174404.html b/applications/ColossalChat/mstt_advisor_20250519174404.html
deleted file mode 100644
index 028ccc63e770..000000000000
--- a/applications/ColossalChat/mstt_advisor_20250519174404.html
+++ /dev/null
@@ -1,7585 +0,0 @@
-<!DOCTYPE html>
-<html>
-<head>
-    <meta charset="UTF-8">
-    <style>
-    html, body {
-      margin: 0;
-      padding: 0;
-      background-color: #f7f6f6;
-      font-family: "Roboto", sans-serif;
-      color: #333333;
-    }
-    .separator {
-            height: 2px;
-            background-image: linear-gradient(to right, #999, #ddd, #999);
-            background-size: 100% 1px;
-            background-repeat: no-repeat;
-            background-position: center;
-            margin: 20px 0;
-        }
-
-    body {
-      display: flex;
-      justify-content: center;
-      align-items: center;
-      margin: 0;
-      padding-bottom: 15px;
-    }
-
-    .content {
-      min-height: calc(100vh - 60px);
-      width: 80%;
-    }
-
-    .collapsible-header {
-      cursor: pointer;
-      font-family: "Roboto", Arial, sans-serif;
-      background-color: #dbd9d9;
-      padding: 15px;
-      border-radius: 4px;
-      box-shadow: 2px 4px 4px rgba(0, 0, 0, 0.2);
-    }
-    .collapsible-header:hover {
-      background-color: #dddbdb;
-      transform: scale(1.02);
-    }
-
-    .collapsible-content {
-      display: none;
-      padding: 12px;
-    }
-    .collapsible-header.opened {
-      background-color: #333333;
-      color: #dbd9d9;
-    }
-    div{margin:5px;
-        border:0;
-        padding:0;}
-    h2 {
-      margin:10px;
-      border:0;
-      padding:0;}
-    h1 {
-      text-align: center;
-      color: #333;
-      margin-top: 10px;
-      font-family: "Roboto", Arial, sans-serif;
-      font-size: 25px;
-      letter-spacing: 2px;
-      padding-bottom: 20px;
-      border-bottom: 1px solid #ddd;
-    }
-
-    table {
-      width: 100%;
-      table-layout: fixed;
-      border-collapse: collapse;
-      margin-top: 2px;
-      margin-bottom: 5px;
-    }
-
-    th, td {
-      padding: 10px;
-      word-wrap: break-word;
-      word-break: break-all;
-      white-space: normal;
-      border: 1px solid rgb(170, 169, 169);
-      text-align: left;
-    }
-
-    th {
-      background-color: #d1d0d0;
-      color: #000000;
-      font-weight: bold;
-      text-align: center;
-    }
-
-    tr:nth-child(even) {
-      background-color: #e7e7e7;
-    }
-
-    tr:hover {
-      background-color: #acaaaa;
-    }
-    .footer {
-      text-align: center;
-      position: fixed;
-      bottom: 0;
-      margin: 0;
-      letter-spacing: 1px;
-      left: 0;
-      width: 100%;
-      padding: 2px 0;
-      color: #777;
-      height: 35px;
-      background-color: #f7f6f6;
-      border-top: 1px solid #ddd;
-      opacity: 1;
-    }
-    #timeline_api_stack {
-      font-size: 15px;
-      color: #004a8f;
-    }
-    #timeline_api_instruction {
-      padding-left:5px;
-    }
-    .non-stack-api-box {
-      cursor: pointer;
-      font-family: "Roboto", Arial, sans-serif;
-      background-color: #dbd9d9;
-      padding: 15px;
-      border-radius: 4px;
-      box-shadow: 2px 4px 4px rgba(0, 0, 0, 0.2);
-    }
-  </style>
-</head>
-<body>
-
-<div class="content">
-<h1><b>Performance Optimization Suggestions</b></h1>
-
-<div style="display: flex; align-items: center;">
-  <span style="color: black; font-weight: bold">Optimization Priority: </span>
-  <div style="width: 20px; height: 20px; background-color: #B5495B; margin-right: 10px;"></div>
-  <span style="color: #B5495B;">High</span>
-  <div style="width: 20px; height: 20px; background-color: #fcaf17; margin: 0 10px;"></div>
-  <span style="color: #fcaf17;">Medium</span>
-  <div style="width: 20px; height: 20px; background-color: #65c294; margin-right: 10px;"></div>
-  <span style="color: #65c294;">Low</span>
-</div>
-
-
-    
-    <div class="collapsible">
-        <h2 class="collapsible-header">overall</h2>
-        <div class="collapsible-content">
-            
-            <div class="collapsible">
-    <h2 class="collapsible-header">Environment Variable Issues</h2>
-    <div class="collapsible-content">
-        <table>
-            <tr>
-                
-                <th>Environment</th>
-                
-                <th>Value</th>
-                
-                <th>Description</th>
-                
-                <th>Suggestion</th>
-                
-            </tr>
-            <tr>
-                
-                <tr>
-                    
-                    <td>ACLNN_CACHE_LIMIT</td>
-                    
-                    <td></td>
-                    
-                    <td>缓存的aclnn算子的数量。</td>
-                    
-                    <td>在alcnn和host耗时过长时，可以设置一个较大的数字，例如'export ACLNN_CACHE_LIMIT=100000'。</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>HOST_CACHE_CAPACITY</td>
-                    
-                    <td></td>
-                    
-                    <td>启用动态shape缓存。<br> 默认值为0，表示数据缓存已禁用。<br> 如果设置为非零正整数，例如10，系统将缓存最近频繁出现的10个输入形状的执行数据。<br> 当缓存的形状再次出现时，host执行性能将得到提高，但host内存使用量会增加。<br> 具体的增加与HOST_CACHE_CAPACITY的值和模型的大小成正比。</td>
-                    
-                    <td>设置一个非零数字，例如'export HOST_CACHE_CAPACITY=20'</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>ASCEND_ENHANCE_ENABLE</td>
-                    
-                    <td></td>
-                    
-                    <td>启用hccl ffts+模式。0-禁用，1-启用。</td>
-                    
-                    <td>建议通过执行命令'export ASCEND_ENHANCE_enable=1'启用hccl ffts+模式。</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>PYTORCH_NPU_ALLOC_CONF</td>
-                    
-                    <td></td>
-                    
-                    <td>控制缓存分配器的行为。<br> 可选参数为max_split_size_mb、garbage_collection_threshold和expandable_segments。<br> 1.max_split_size_mb：v —— 大于v的内存块不会被分割。<br> 2.garbage_collection_threshold：t —— 设置阈值后，如果NPU内存使用量超过阈值，缓存分配器将开始回收内存块。t的取值范围为（0.0，1.0）。<br> 3.expandable_segments:True/False —— 默认值为False。如果为True，则此设置指示缓存分配器创建特定的内存块，这些内存块可以在以后扩展，以更好地处理频繁更改的内存使用情况。</td>
-                    
-                    <td>export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>ASCEND_LAUNCH_BLOCKING</td>
-                    
-                    <td></td>
-                    
-                    <td>是否在操作执行期间启用同步模式。<br> 当设置为1时，强制算子同步运行，从而更容易调试和跟踪代码中的问题。<br> 如果设置为0，则任务将以异步模式执行。</td>
-                    
-                    <td>export ASCEND_LAUNCH_BLOCKING=1</td>
-                    
-                </tr>
-                
-            </tr>
-        </table>
-    </div>
-</div>
-            
-            <div class="collapsible">
-    <h2 class="collapsible-header">slow rank</h2>
-    <div class="collapsible-content">
-        <div class="collapsible">
-
-            
-            <div class="collapsible-header">Description</div>
-            <div class="collapsible-content">
-                <a>集群中的通信有问题， 
-因为通信时间的最大差距已经达到 
-103060.644ms。 
-集群中的空闲有问题， 
-因为空闲时间的最大差距已经达到 
-99304.586ms。 
-</a>
-            </div>
-            
-
-            
-
-            
-            <div class="collapsible-header">details</div>
-            <div class="collapsible-content">
-                
-                <table>
-                    <tr>
-                        
-                        <td>step</td>
-                        
-                        <td>rank_id</td>
-                        
-                        <td>compute(us)</td>
-                        
-                        <td>communication(us)</td>
-                        
-                        <td>free(us)</td>
-                        
-                    </tr>
-                    
-                    <tr>
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>1556714.06</td>
-                        
-                        
-                        
-                        <td>87232581.34</td>
-                        
-                        
-                        
-                        <td>36829097.07</td>
-                        
-                        
-                    </tr>
-                    
-                    <tr>
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>1</td>
-                        
-                        
-                        
-                        <td>1560276.45</td>
-                        
-                        
-                        
-                        <td>78997510.16</td>
-                        
-                        
-                        
-                        <td>43698754.88</td>
-                        
-                        
-                    </tr>
-                    
-                    <tr>
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>2</td>
-                        
-                        
-                        
-                        <td>1558312.8</td>
-                        
-                        
-                        
-                        <td>40868325.82</td>
-                        
-                        
-                        
-                        <td>79587869.88</td>
-                        
-                        
-                    </tr>
-                    
-                    <tr>
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>3</td>
-                        
-                        
-                        
-                        <td>1556942.22</td>
-                        
-                        
-                        
-                        <td>98397199.24</td>
-                        
-                        
-                        
-                        <td>25134636.69</td>
-                        
-                        
-                    </tr>
-                    
-                    <tr>
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>4</td>
-                        
-                        
-                        
-                        <td>1761254.86</td>
-                        
-                        
-                        
-                        <td>45969395.1</td>
-                        
-                        
-                        
-                        <td>77693774.04</td>
-                        
-                        
-                    </tr>
-                    
-                    <tr>
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>5</td>
-                        
-                        
-                        
-                        <td>1765175.92</td>
-                        
-                        
-                        
-                        <td>56016250.64</td>
-                        
-                        
-                        
-                        <td>65924566.11</td>
-                        
-                        
-                    </tr>
-                    
-                    <tr>
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>6</td>
-                        
-                        
-                        
-                        <td>1762990.27</td>
-                        
-                        
-                        
-                        <td>3041651.13</td>
-                        
-                        
-                        
-                        <td>117837748.23</td>
-                        
-                        
-                    </tr>
-                    
-                    <tr>
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>7</td>
-                        
-                        
-                        
-                        <td>1763501.67</td>
-                        
-                        
-                        
-                        <td>52671041.62</td>
-                        
-                        
-                        
-                        <td>69509934.54</td>
-                        
-                        
-                    </tr>
-                    
-                    <tr>
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>8</td>
-                        
-                        
-                        
-                        <td>1561748.03</td>
-                        
-                        
-                        
-                        <td>44449697.11</td>
-                        
-                        
-                        
-                        <td>76268659.57</td>
-                        
-                        
-                    </tr>
-                    
-                    <tr>
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>9</td>
-                        
-                        
-                        
-                        <td>1557930.15</td>
-                        
-                        
-                        
-                        <td>103663859.49</td>
-                        
-                        
-                        
-                        <td>20203496.84</td>
-                        
-                        
-                    </tr>
-                    
-                    <tr>
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>10</td>
-                        
-                        
-                        
-                        <td>1558704.98</td>
-                        
-                        
-                        
-                        <td>87122155.7</td>
-                        
-                        
-                        
-                        <td>35402682.33</td>
-                        
-                        
-                    </tr>
-                    
-                    <tr>
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>11</td>
-                        
-                        
-                        
-                        <td>1557350.52</td>
-                        
-                        
-                        
-                        <td>105052622.01</td>
-                        
-                        
-                        
-                        <td>18533162.23</td>
-                        
-                        
-                    </tr>
-                    
-                    <tr>
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>12</td>
-                        
-                        
-                        
-                        <td>1763293.74</td>
-                        
-                        
-                        
-                        <td>66816420.23</td>
-                        
-                        
-                        
-                        <td>48098511.97</td>
-                        
-                        
-                    </tr>
-                    
-                    <tr>
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>13</td>
-                        
-                        
-                        
-                        <td>1760975.6</td>
-                        
-                        
-                        
-                        <td>1991978.28</td>
-                        
-                        
-                        
-                        <td>111975738.82</td>
-                        
-                        
-                    </tr>
-                    
-                    <tr>
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>14</td>
-                        
-                        
-                        
-                        <td>1759204.7</td>
-                        
-                        
-                        
-                        <td>44457564.92</td>
-                        
-                        
-                        
-                        <td>68792652.51</td>
-                        
-                        
-                    </tr>
-                    
-                    <tr>
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>15</td>
-                        
-                        
-                        
-                        <td>1762214.47</td>
-                        
-                        
-                        
-                        <td>58791678.64</td>
-                        
-                        
-                        
-                        <td>56870330.29</td>
-                        
-                        
-                    </tr>
-                    
-                </table>
-                
-            </div>
-            
-
-        </div>
-
-    </div>
-</div>
-            
-            <div class="collapsible">
-    <h2 class="collapsible-header">slow link</h2>
-    <div class="collapsible-content">
-        <div class="collapsible">
-
-            
-            <div class="collapsible-header">Description</div>
-            <div class="collapsible-content">
-                <a>RDMA bandwidth(GB/s)： 
-    平均值是 23.997， 
-    但最大值是 24.017GB/s ，
-    最小值是 23.983GB/s。
-    差距为 0.034GB/s。 
-SDMA bandwidth(GB/s)： 
-    平均值是 17.935， 
-    但最大值是 18.663GB/s ，
-    最小值是 17.174GB/s。
-    差距为 1.49GB/s。 
-</a>
-            </div>
-            
-
-            
-
-            
-            <div class="collapsible-header">details</div>
-            <div class="collapsible-content">
-                
-                <table>
-                    <tr>
-                        
-                        <td>step</td>
-                        
-                        <td>rank_id</td>
-                        
-                        <td>RDMA bandwidth(GB/s)</td>
-                        
-                        <td>RDMA size(mb)</td>
-                        
-                        <td>RDMA time(ms)</td>
-                        
-                        <td>SDMA bandwidth(GB/s)</td>
-                        
-                        <td>SDMA size(mb)</td>
-                        
-                        <td>SDMA time(ms)</td>
-                        
-                    </tr>
-                    
-                    <tr>
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>23.99</td>
-                        
-                        
-                        
-                        <td>7616.22</td>
-                        
-                        
-                        
-                        <td>317.46</td>
-                        
-                        
-                        
-                        <td>18.41</td>
-                        
-                        
-                        
-                        <td>70229.43</td>
-                        
-                        
-                        
-                        <td>3813.77</td>
-                        
-                        
-                    </tr>
-                    
-                    <tr>
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>1</td>
-                        
-                        
-                        
-                        <td>24.02</td>
-                        
-                        
-                        
-                        <td>7616.22</td>
-                        
-                        
-                        
-                        <td>317.12</td>
-                        
-                        
-                        
-                        <td>17.52</td>
-                        
-                        
-                        
-                        <td>70230.23</td>
-                        
-                        
-                        
-                        <td>4008.1</td>
-                        
-                        
-                    </tr>
-                    
-                    <tr>
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>2</td>
-                        
-                        
-                        
-                        <td>23.98</td>
-                        
-                        
-                        
-                        <td>7616.22</td>
-                        
-                        
-                        
-                        <td>317.55</td>
-                        
-                        
-                        
-                        <td>18.59</td>
-                        
-                        
-                        
-                        <td>70230.23</td>
-                        
-                        
-                        
-                        <td>3777.48</td>
-                        
-                        
-                    </tr>
-                    
-                    <tr>
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>3</td>
-                        
-                        
-                        
-                        <td>24.01</td>
-                        
-                        
-                        
-                        <td>7616.22</td>
-                        
-                        
-                        
-                        <td>317.21</td>
-                        
-                        
-                        
-                        <td>18.66</td>
-                        
-                        
-                        
-                        <td>70230.23</td>
-                        
-                        
-                        
-                        <td>3763.05</td>
-                        
-                        
-                    </tr>
-                    
-                    <tr>
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>4</td>
-                        
-                        
-                        
-                        <td>24.0</td>
-                        
-                        
-                        
-                        <td>7616.24</td>
-                        
-                        
-                        
-                        <td>317.37</td>
-                        
-                        
-                        
-                        <td>17.17</td>
-                        
-                        
-                        
-                        <td>70229.43</td>
-                        
-                        
-                        
-                        <td>4089.41</td>
-                        
-                        
-                    </tr>
-                    
-                    <tr>
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>5</td>
-                        
-                        
-                        
-                        <td>24.01</td>
-                        
-                        
-                        
-                        <td>7616.24</td>
-                        
-                        
-                        
-                        <td>317.24</td>
-                        
-                        
-                        
-                        <td>17.2</td>
-                        
-                        
-                        
-                        <td>70231.31</td>
-                        
-                        
-                        
-                        <td>4083.65</td>
-                        
-                        
-                    </tr>
-                    
-                    <tr>
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>6</td>
-                        
-                        
-                        
-                        <td>24.0</td>
-                        
-                        
-                        
-                        <td>7616.24</td>
-                        
-                        
-                        
-                        <td>317.29</td>
-                        
-                        
-                        
-                        <td>17.38</td>
-                        
-                        
-                        
-                        <td>70231.31</td>
-                        
-                        
-                        
-                        <td>4041.88</td>
-                        
-                        
-                    </tr>
-                    
-                    <tr>
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>7</td>
-                        
-                        
-                        
-                        <td>24.01</td>
-                        
-                        
-                        
-                        <td>7616.24</td>
-                        
-                        
-                        
-                        <td>317.22</td>
-                        
-                        
-                        
-                        <td>18.43</td>
-                        
-                        
-                        
-                        <td>70231.31</td>
-                        
-                        
-                        
-                        <td>3811.14</td>
-                        
-                        
-                    </tr>
-                    
-                    <tr>
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>8</td>
-                        
-                        
-                        
-                        <td>23.99</td>
-                        
-                        
-                        
-                        <td>7616.22</td>
-                        
-                        
-                        
-                        <td>317.48</td>
-                        
-                        
-                        
-                        <td>18.39</td>
-                        
-                        
-                        
-                        <td>70229.43</td>
-                        
-                        
-                        
-                        <td>3819.49</td>
-                        
-                        
-                    </tr>
-                    
-                    <tr>
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>9</td>
-                        
-                        
-                        
-                        <td>24.0</td>
-                        
-                        
-                        
-                        <td>7616.22</td>
-                        
-                        
-                        
-                        <td>317.35</td>
-                        
-                        
-                        
-                        <td>17.6</td>
-                        
-                        
-                        
-                        <td>70230.23</td>
-                        
-                        
-                        
-                        <td>3990.1</td>
-                        
-                        
-                    </tr>
-                    
-                    <tr>
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>10</td>
-                        
-                        
-                        
-                        <td>23.99</td>
-                        
-                        
-                        
-                        <td>7616.22</td>
-                        
-                        
-                        
-                        <td>317.45</td>
-                        
-                        
-                        
-                        <td>18.64</td>
-                        
-                        
-                        
-                        <td>70230.23</td>
-                        
-                        
-                        
-                        <td>3768.14</td>
-                        
-                        
-                    </tr>
-                    
-                    <tr>
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>11</td>
-                        
-                        
-                        
-                        <td>23.99</td>
-                        
-                        
-                        
-                        <td>7616.22</td>
-                        
-                        
-                        
-                        <td>317.44</td>
-                        
-                        
-                        
-                        <td>18.57</td>
-                        
-                        
-                        
-                        <td>70230.23</td>
-                        
-                        
-                        
-                        <td>3782.16</td>
-                        
-                        
-                    </tr>
-                    
-                    <tr>
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>12</td>
-                        
-                        
-                        
-                        <td>24.0</td>
-                        
-                        
-                        
-                        <td>7616.24</td>
-                        
-                        
-                        
-                        <td>317.34</td>
-                        
-                        
-                        
-                        <td>17.24</td>
-                        
-                        
-                        
-                        <td>70229.43</td>
-                        
-                        
-                        
-                        <td>4074.61</td>
-                        
-                        
-                    </tr>
-                    
-                    <tr>
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>13</td>
-                        
-                        
-                        
-                        <td>23.98</td>
-                        
-                        
-                        
-                        <td>7616.24</td>
-                        
-                        
-                        
-                        <td>317.57</td>
-                        
-                        
-                        
-                        <td>17.41</td>
-                        
-                        
-                        
-                        <td>70231.31</td>
-                        
-                        
-                        
-                        <td>4035.02</td>
-                        
-                        
-                    </tr>
-                    
-                    <tr>
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>14</td>
-                        
-                        
-                        
-                        <td>23.98</td>
-                        
-                        
-                        
-                        <td>7616.24</td>
-                        
-                        
-                        
-                        <td>317.56</td>
-                        
-                        
-                        
-                        <td>17.24</td>
-                        
-                        
-                        
-                        <td>70231.31</td>
-                        
-                        
-                        
-                        <td>4074.82</td>
-                        
-                        
-                    </tr>
-                    
-                    <tr>
-                        
-                        
-                        <td>0</td>
-                        
-                        
-                        
-                        <td>15</td>
-                        
-                        
-                        
-                        <td>23.99</td>
-                        
-                        
-                        
-                        <td>7616.24</td>
-                        
-                        
-                        
-                        <td>317.5</td>
-                        
-                        
-                        
-                        <td>18.52</td>
-                        
-                        
-                        
-                        <td>70231.31</td>
-                        
-                        
-                        
-                        <td>3792.47</td>
-                        
-                        
-                    </tr>
-                    
-                </table>
-                
-            </div>
-            
-
-        </div>
-
-    </div>
-</div>
-            
-        </div>
-    </div>
-    
-
-    
-    <div class="collapsible">
-        <h2 class="collapsible-header">comparison</h2>
-        <div class="collapsible-content">
-            
-            
-<div class="collapsible">
-      <h2 class="collapsible-header" style="background-color: ;">Kernel compare of Rank4 Step0 and Rank0 Step0</h2>
-      <div class="collapsible-content">
-            <a style="font-weight: bold" id="timeline_api_instruction_issue">Issue: Kernel compare of Rank4 Step0 and Rank0 Step0. Only show 10 rows here, see mstt_advisor*.xlsx for details</a>
-            <br><br>
-            <table>
-                <tr>
-                
-                    <th> Order Id </th>
-                
-                    <th> Kernel Type </th>
-                
-                    <th> Core Type </th>
-                
-                    <th> Total Duration(us) </th>
-                
-                    <th> Avg Duration(us) </th>
-                
-                    <th> Max Duration(us) </th>
-                
-                    <th> Min Duration(us) </th>
-                
-                    <th> Calls </th>
-                
-                    <th> Benchmark  Total Duration(us) </th>
-                
-                    <th> Benchmark  Avg Duration(us) </th>
-                
-                    <th> Benchmark  Max Duration(us) </th>
-                
-                    <th> Benchmark  Min Duration(us) </th>
-                
-                    <th> Benchmark  Calls </th>
-                
-                    <th> Diff Total Ratio </th>
-                
-                    <th> Diff Avg Ratio </th>
-                
-                </tr>
-
-                
-                <tr>
-                    
-                    <td>1</td>
-                    
-                    <td>GatherV2</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0</td>
-                    
-                    <td>1316.306</td>
-                    
-                    <td>658.153</td>
-                    
-                    <td>660.833</td>
-                    
-                    <td>655.473</td>
-                    
-                    <td>2</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>2</td>
-                    
-                    <td>EmbeddingDenseGradV2</td>
-                    
-                    <td>MIX_AIV</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0</td>
-                    
-                    <td>899.178</td>
-                    
-                    <td>449.589</td>
-                    
-                    <td>451.049</td>
-                    
-                    <td>448.129</td>
-                    
-                    <td>2</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>3</td>
-                    
-                    <td>MemSet</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>122.302</td>
-                    
-                    <td>10.192</td>
-                    
-                    <td>12.68</td>
-                    
-                    <td>6.56</td>
-                    
-                    <td>12</td>
-                    
-                    <td>761.135</td>
-                    
-                    <td>63.428</td>
-                    
-                    <td>337.366</td>
-                    
-                    <td>5.46</td>
-                    
-                    <td>12</td>
-                    
-                    <td>6.2234</td>
-                    
-                    <td>6.2233</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>39</td>
-                    
-                    <td>Range</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>49.381</td>
-                    
-                    <td>12.345</td>
-                    
-                    <td>12.661</td>
-                    
-                    <td>11.921</td>
-                    
-                    <td>4</td>
-                    
-                    <td>29.181</td>
-                    
-                    <td>14.591</td>
-                    
-                    <td>14.64</td>
-                    
-                    <td>14.54</td>
-                    
-                    <td>2</td>
-                    
-                    <td>0.5909</td>
-                    
-                    <td>1.1819</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>4</td>
-                    
-                    <td>GreaterEqual</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>16.901</td>
-                    
-                    <td>8.45</td>
-                    
-                    <td>8.56</td>
-                    
-                    <td>8.341</td>
-                    
-                    <td>2</td>
-                    
-                    <td>19.081</td>
-                    
-                    <td>9.54</td>
-                    
-                    <td>9.681</td>
-                    
-                    <td>9.4</td>
-                    
-                    <td>2</td>
-                    
-                    <td>1.129</td>
-                    
-                    <td>1.129</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>43</td>
-                    
-                    <td>Fill</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>15.881</td>
-                    
-                    <td>1.444</td>
-                    
-                    <td>1.6</td>
-                    
-                    <td>1.3</td>
-                    
-                    <td>11</td>
-                    
-                    <td>6.52</td>
-                    
-                    <td>1.63</td>
-                    
-                    <td>1.88</td>
-                    
-                    <td>1.42</td>
-                    
-                    <td>4</td>
-                    
-                    <td>0.4106</td>
-                    
-                    <td>1.1288</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>38</td>
-                    
-                    <td>LinearIndexV2</td>
-                    
-                    <td>MIX_AIV</td>
-                    
-                    <td>121.502</td>
-                    
-                    <td>20.25</td>
-                    
-                    <td>20.86</td>
-                    
-                    <td>18.881</td>
-                    
-                    <td>6</td>
-                    
-                    <td>90.682</td>
-                    
-                    <td>22.671</td>
-                    
-                    <td>24.34</td>
-                    
-                    <td>21.541</td>
-                    
-                    <td>4</td>
-                    
-                    <td>0.7463</td>
-                    
-                    <td>1.1196</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>5</td>
-                    
-                    <td>Less</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>21.441</td>
-                    
-                    <td>10.72</td>
-                    
-                    <td>11.28</td>
-                    
-                    <td>10.161</td>
-                    
-                    <td>2</td>
-                    
-                    <td>23.921</td>
-                    
-                    <td>11.96</td>
-                    
-                    <td>12.581</td>
-                    
-                    <td>11.34</td>
-                    
-                    <td>2</td>
-                    
-                    <td>1.1157</td>
-                    
-                    <td>1.1157</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>6</td>
-                    
-                    <td>Addcmul</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>11961.336</td>
-                    
-                    <td>35.18</td>
-                    
-                    <td>889.337</td>
-                    
-                    <td>2.0</td>
-                    
-                    <td>340</td>
-                    
-                    <td>12491.693</td>
-                    
-                    <td>36.958</td>
-                    
-                    <td>895.998</td>
-                    
-                    <td>2.04</td>
-                    
-                    <td>338</td>
-                    
-                    <td>1.0443</td>
-                    
-                    <td>1.0505</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>7</td>
-                    
-                    <td>Addcdiv</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>13155.317</td>
-                    
-                    <td>38.692</td>
-                    
-                    <td>1144.902</td>
-                    
-                    <td>1.94</td>
-                    
-                    <td>340</td>
-                    
-                    <td>13414.21</td>
-                    
-                    <td>39.687</td>
-                    
-                    <td>1141.842</td>
-                    
-                    <td>1.98</td>
-                    
-                    <td>338</td>
-                    
-                    <td>1.0197</td>
-                    
-                    <td>1.0257</td>
-                    
-                </tr>
-                
-            </table>
-
-        </div>
-</div>
-
-            
-            
-<div class="collapsible">
-      <h2 class="collapsible-header" style="background-color: ;">Kernel compare of Rank5 Step0 and Rank1 Step0</h2>
-      <div class="collapsible-content">
-            <a style="font-weight: bold" id="timeline_api_instruction_issue">Issue: Kernel compare of Rank5 Step0 and Rank1 Step0. Only show 10 rows here, see mstt_advisor*.xlsx for details</a>
-            <br><br>
-            <table>
-                <tr>
-                
-                    <th> Order Id </th>
-                
-                    <th> Kernel Type </th>
-                
-                    <th> Core Type </th>
-                
-                    <th> Total Duration(us) </th>
-                
-                    <th> Avg Duration(us) </th>
-                
-                    <th> Max Duration(us) </th>
-                
-                    <th> Min Duration(us) </th>
-                
-                    <th> Calls </th>
-                
-                    <th> Benchmark  Total Duration(us) </th>
-                
-                    <th> Benchmark  Avg Duration(us) </th>
-                
-                    <th> Benchmark  Max Duration(us) </th>
-                
-                    <th> Benchmark  Min Duration(us) </th>
-                
-                    <th> Benchmark  Calls </th>
-                
-                    <th> Diff Total Ratio </th>
-                
-                    <th> Diff Avg Ratio </th>
-                
-                </tr>
-
-                
-                <tr>
-                    
-                    <td>1</td>
-                    
-                    <td>GatherV2</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0</td>
-                    
-                    <td>1316.306</td>
-                    
-                    <td>658.153</td>
-                    
-                    <td>660.833</td>
-                    
-                    <td>655.473</td>
-                    
-                    <td>2</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>2</td>
-                    
-                    <td>EmbeddingDenseGradV2</td>
-                    
-                    <td>MIX_AIV</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0</td>
-                    
-                    <td>899.178</td>
-                    
-                    <td>449.589</td>
-                    
-                    <td>451.049</td>
-                    
-                    <td>448.129</td>
-                    
-                    <td>2</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>3</td>
-                    
-                    <td>MemSet</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>122.302</td>
-                    
-                    <td>10.192</td>
-                    
-                    <td>12.68</td>
-                    
-                    <td>6.56</td>
-                    
-                    <td>12</td>
-                    
-                    <td>761.135</td>
-                    
-                    <td>63.428</td>
-                    
-                    <td>337.366</td>
-                    
-                    <td>5.46</td>
-                    
-                    <td>12</td>
-                    
-                    <td>6.2234</td>
-                    
-                    <td>6.2233</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>39</td>
-                    
-                    <td>Range</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>49.381</td>
-                    
-                    <td>12.345</td>
-                    
-                    <td>12.661</td>
-                    
-                    <td>11.921</td>
-                    
-                    <td>4</td>
-                    
-                    <td>29.181</td>
-                    
-                    <td>14.591</td>
-                    
-                    <td>14.64</td>
-                    
-                    <td>14.54</td>
-                    
-                    <td>2</td>
-                    
-                    <td>0.5909</td>
-                    
-                    <td>1.1819</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>4</td>
-                    
-                    <td>GreaterEqual</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>16.901</td>
-                    
-                    <td>8.45</td>
-                    
-                    <td>8.56</td>
-                    
-                    <td>8.341</td>
-                    
-                    <td>2</td>
-                    
-                    <td>19.081</td>
-                    
-                    <td>9.54</td>
-                    
-                    <td>9.681</td>
-                    
-                    <td>9.4</td>
-                    
-                    <td>2</td>
-                    
-                    <td>1.129</td>
-                    
-                    <td>1.129</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>43</td>
-                    
-                    <td>Fill</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>15.881</td>
-                    
-                    <td>1.444</td>
-                    
-                    <td>1.6</td>
-                    
-                    <td>1.3</td>
-                    
-                    <td>11</td>
-                    
-                    <td>6.52</td>
-                    
-                    <td>1.63</td>
-                    
-                    <td>1.88</td>
-                    
-                    <td>1.42</td>
-                    
-                    <td>4</td>
-                    
-                    <td>0.4106</td>
-                    
-                    <td>1.1288</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>38</td>
-                    
-                    <td>LinearIndexV2</td>
-                    
-                    <td>MIX_AIV</td>
-                    
-                    <td>121.502</td>
-                    
-                    <td>20.25</td>
-                    
-                    <td>20.86</td>
-                    
-                    <td>18.881</td>
-                    
-                    <td>6</td>
-                    
-                    <td>90.682</td>
-                    
-                    <td>22.671</td>
-                    
-                    <td>24.34</td>
-                    
-                    <td>21.541</td>
-                    
-                    <td>4</td>
-                    
-                    <td>0.7463</td>
-                    
-                    <td>1.1196</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>5</td>
-                    
-                    <td>Less</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>21.441</td>
-                    
-                    <td>10.72</td>
-                    
-                    <td>11.28</td>
-                    
-                    <td>10.161</td>
-                    
-                    <td>2</td>
-                    
-                    <td>23.921</td>
-                    
-                    <td>11.96</td>
-                    
-                    <td>12.581</td>
-                    
-                    <td>11.34</td>
-                    
-                    <td>2</td>
-                    
-                    <td>1.1157</td>
-                    
-                    <td>1.1157</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>6</td>
-                    
-                    <td>Addcmul</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>11961.336</td>
-                    
-                    <td>35.18</td>
-                    
-                    <td>889.337</td>
-                    
-                    <td>2.0</td>
-                    
-                    <td>340</td>
-                    
-                    <td>12491.693</td>
-                    
-                    <td>36.958</td>
-                    
-                    <td>895.998</td>
-                    
-                    <td>2.04</td>
-                    
-                    <td>338</td>
-                    
-                    <td>1.0443</td>
-                    
-                    <td>1.0505</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>7</td>
-                    
-                    <td>Addcdiv</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>13155.317</td>
-                    
-                    <td>38.692</td>
-                    
-                    <td>1144.902</td>
-                    
-                    <td>1.94</td>
-                    
-                    <td>340</td>
-                    
-                    <td>13414.21</td>
-                    
-                    <td>39.687</td>
-                    
-                    <td>1141.842</td>
-                    
-                    <td>1.98</td>
-                    
-                    <td>338</td>
-                    
-                    <td>1.0197</td>
-                    
-                    <td>1.0257</td>
-                    
-                </tr>
-                
-            </table>
-
-        </div>
-</div>
-
-            
-            
-<div class="collapsible">
-      <h2 class="collapsible-header" style="background-color: ;">Kernel compare of Rank6 Step0 and Rank2 Step0</h2>
-      <div class="collapsible-content">
-            <a style="font-weight: bold" id="timeline_api_instruction_issue">Issue: Kernel compare of Rank6 Step0 and Rank2 Step0. Only show 10 rows here, see mstt_advisor*.xlsx for details</a>
-            <br><br>
-            <table>
-                <tr>
-                
-                    <th> Order Id </th>
-                
-                    <th> Kernel Type </th>
-                
-                    <th> Core Type </th>
-                
-                    <th> Total Duration(us) </th>
-                
-                    <th> Avg Duration(us) </th>
-                
-                    <th> Max Duration(us) </th>
-                
-                    <th> Min Duration(us) </th>
-                
-                    <th> Calls </th>
-                
-                    <th> Benchmark  Total Duration(us) </th>
-                
-                    <th> Benchmark  Avg Duration(us) </th>
-                
-                    <th> Benchmark  Max Duration(us) </th>
-                
-                    <th> Benchmark  Min Duration(us) </th>
-                
-                    <th> Benchmark  Calls </th>
-                
-                    <th> Diff Total Ratio </th>
-                
-                    <th> Diff Avg Ratio </th>
-                
-                </tr>
-
-                
-                <tr>
-                    
-                    <td>1</td>
-                    
-                    <td>GatherV2</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0</td>
-                    
-                    <td>1316.306</td>
-                    
-                    <td>658.153</td>
-                    
-                    <td>660.833</td>
-                    
-                    <td>655.473</td>
-                    
-                    <td>2</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>2</td>
-                    
-                    <td>EmbeddingDenseGradV2</td>
-                    
-                    <td>MIX_AIV</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0</td>
-                    
-                    <td>899.178</td>
-                    
-                    <td>449.589</td>
-                    
-                    <td>451.049</td>
-                    
-                    <td>448.129</td>
-                    
-                    <td>2</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>3</td>
-                    
-                    <td>MemSet</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>122.302</td>
-                    
-                    <td>10.192</td>
-                    
-                    <td>12.68</td>
-                    
-                    <td>6.56</td>
-                    
-                    <td>12</td>
-                    
-                    <td>761.135</td>
-                    
-                    <td>63.428</td>
-                    
-                    <td>337.366</td>
-                    
-                    <td>5.46</td>
-                    
-                    <td>12</td>
-                    
-                    <td>6.2234</td>
-                    
-                    <td>6.2233</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>39</td>
-                    
-                    <td>Range</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>49.381</td>
-                    
-                    <td>12.345</td>
-                    
-                    <td>12.661</td>
-                    
-                    <td>11.921</td>
-                    
-                    <td>4</td>
-                    
-                    <td>29.181</td>
-                    
-                    <td>14.591</td>
-                    
-                    <td>14.64</td>
-                    
-                    <td>14.54</td>
-                    
-                    <td>2</td>
-                    
-                    <td>0.5909</td>
-                    
-                    <td>1.1819</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>4</td>
-                    
-                    <td>GreaterEqual</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>16.901</td>
-                    
-                    <td>8.45</td>
-                    
-                    <td>8.56</td>
-                    
-                    <td>8.341</td>
-                    
-                    <td>2</td>
-                    
-                    <td>19.081</td>
-                    
-                    <td>9.54</td>
-                    
-                    <td>9.681</td>
-                    
-                    <td>9.4</td>
-                    
-                    <td>2</td>
-                    
-                    <td>1.129</td>
-                    
-                    <td>1.129</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>43</td>
-                    
-                    <td>Fill</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>15.881</td>
-                    
-                    <td>1.444</td>
-                    
-                    <td>1.6</td>
-                    
-                    <td>1.3</td>
-                    
-                    <td>11</td>
-                    
-                    <td>6.52</td>
-                    
-                    <td>1.63</td>
-                    
-                    <td>1.88</td>
-                    
-                    <td>1.42</td>
-                    
-                    <td>4</td>
-                    
-                    <td>0.4106</td>
-                    
-                    <td>1.1288</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>38</td>
-                    
-                    <td>LinearIndexV2</td>
-                    
-                    <td>MIX_AIV</td>
-                    
-                    <td>121.502</td>
-                    
-                    <td>20.25</td>
-                    
-                    <td>20.86</td>
-                    
-                    <td>18.881</td>
-                    
-                    <td>6</td>
-                    
-                    <td>90.682</td>
-                    
-                    <td>22.671</td>
-                    
-                    <td>24.34</td>
-                    
-                    <td>21.541</td>
-                    
-                    <td>4</td>
-                    
-                    <td>0.7463</td>
-                    
-                    <td>1.1196</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>5</td>
-                    
-                    <td>Less</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>21.441</td>
-                    
-                    <td>10.72</td>
-                    
-                    <td>11.28</td>
-                    
-                    <td>10.161</td>
-                    
-                    <td>2</td>
-                    
-                    <td>23.921</td>
-                    
-                    <td>11.96</td>
-                    
-                    <td>12.581</td>
-                    
-                    <td>11.34</td>
-                    
-                    <td>2</td>
-                    
-                    <td>1.1157</td>
-                    
-                    <td>1.1157</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>6</td>
-                    
-                    <td>Addcmul</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>11961.336</td>
-                    
-                    <td>35.18</td>
-                    
-                    <td>889.337</td>
-                    
-                    <td>2.0</td>
-                    
-                    <td>340</td>
-                    
-                    <td>12491.693</td>
-                    
-                    <td>36.958</td>
-                    
-                    <td>895.998</td>
-                    
-                    <td>2.04</td>
-                    
-                    <td>338</td>
-                    
-                    <td>1.0443</td>
-                    
-                    <td>1.0505</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>7</td>
-                    
-                    <td>Addcdiv</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>13155.317</td>
-                    
-                    <td>38.692</td>
-                    
-                    <td>1144.902</td>
-                    
-                    <td>1.94</td>
-                    
-                    <td>340</td>
-                    
-                    <td>13414.21</td>
-                    
-                    <td>39.687</td>
-                    
-                    <td>1141.842</td>
-                    
-                    <td>1.98</td>
-                    
-                    <td>338</td>
-                    
-                    <td>1.0197</td>
-                    
-                    <td>1.0257</td>
-                    
-                </tr>
-                
-            </table>
-
-        </div>
-</div>
-
-            
-            
-<div class="collapsible">
-      <h2 class="collapsible-header" style="background-color: ;">Kernel compare of Rank7 Step0 and Rank3 Step0</h2>
-      <div class="collapsible-content">
-            <a style="font-weight: bold" id="timeline_api_instruction_issue">Issue: Kernel compare of Rank7 Step0 and Rank3 Step0. Only show 10 rows here, see mstt_advisor*.xlsx for details</a>
-            <br><br>
-            <table>
-                <tr>
-                
-                    <th> Order Id </th>
-                
-                    <th> Kernel Type </th>
-                
-                    <th> Core Type </th>
-                
-                    <th> Total Duration(us) </th>
-                
-                    <th> Avg Duration(us) </th>
-                
-                    <th> Max Duration(us) </th>
-                
-                    <th> Min Duration(us) </th>
-                
-                    <th> Calls </th>
-                
-                    <th> Benchmark  Total Duration(us) </th>
-                
-                    <th> Benchmark  Avg Duration(us) </th>
-                
-                    <th> Benchmark  Max Duration(us) </th>
-                
-                    <th> Benchmark  Min Duration(us) </th>
-                
-                    <th> Benchmark  Calls </th>
-                
-                    <th> Diff Total Ratio </th>
-                
-                    <th> Diff Avg Ratio </th>
-                
-                </tr>
-
-                
-                <tr>
-                    
-                    <td>1</td>
-                    
-                    <td>GatherV2</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0</td>
-                    
-                    <td>1316.306</td>
-                    
-                    <td>658.153</td>
-                    
-                    <td>660.833</td>
-                    
-                    <td>655.473</td>
-                    
-                    <td>2</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>2</td>
-                    
-                    <td>EmbeddingDenseGradV2</td>
-                    
-                    <td>MIX_AIV</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0</td>
-                    
-                    <td>899.178</td>
-                    
-                    <td>449.589</td>
-                    
-                    <td>451.049</td>
-                    
-                    <td>448.129</td>
-                    
-                    <td>2</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>3</td>
-                    
-                    <td>MemSet</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>122.302</td>
-                    
-                    <td>10.192</td>
-                    
-                    <td>12.68</td>
-                    
-                    <td>6.56</td>
-                    
-                    <td>12</td>
-                    
-                    <td>761.135</td>
-                    
-                    <td>63.428</td>
-                    
-                    <td>337.366</td>
-                    
-                    <td>5.46</td>
-                    
-                    <td>12</td>
-                    
-                    <td>6.2234</td>
-                    
-                    <td>6.2233</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>39</td>
-                    
-                    <td>Range</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>49.381</td>
-                    
-                    <td>12.345</td>
-                    
-                    <td>12.661</td>
-                    
-                    <td>11.921</td>
-                    
-                    <td>4</td>
-                    
-                    <td>29.181</td>
-                    
-                    <td>14.591</td>
-                    
-                    <td>14.64</td>
-                    
-                    <td>14.54</td>
-                    
-                    <td>2</td>
-                    
-                    <td>0.5909</td>
-                    
-                    <td>1.1819</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>4</td>
-                    
-                    <td>GreaterEqual</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>16.901</td>
-                    
-                    <td>8.45</td>
-                    
-                    <td>8.56</td>
-                    
-                    <td>8.341</td>
-                    
-                    <td>2</td>
-                    
-                    <td>19.081</td>
-                    
-                    <td>9.54</td>
-                    
-                    <td>9.681</td>
-                    
-                    <td>9.4</td>
-                    
-                    <td>2</td>
-                    
-                    <td>1.129</td>
-                    
-                    <td>1.129</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>43</td>
-                    
-                    <td>Fill</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>15.881</td>
-                    
-                    <td>1.444</td>
-                    
-                    <td>1.6</td>
-                    
-                    <td>1.3</td>
-                    
-                    <td>11</td>
-                    
-                    <td>6.52</td>
-                    
-                    <td>1.63</td>
-                    
-                    <td>1.88</td>
-                    
-                    <td>1.42</td>
-                    
-                    <td>4</td>
-                    
-                    <td>0.4106</td>
-                    
-                    <td>1.1288</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>38</td>
-                    
-                    <td>LinearIndexV2</td>
-                    
-                    <td>MIX_AIV</td>
-                    
-                    <td>121.502</td>
-                    
-                    <td>20.25</td>
-                    
-                    <td>20.86</td>
-                    
-                    <td>18.881</td>
-                    
-                    <td>6</td>
-                    
-                    <td>90.682</td>
-                    
-                    <td>22.671</td>
-                    
-                    <td>24.34</td>
-                    
-                    <td>21.541</td>
-                    
-                    <td>4</td>
-                    
-                    <td>0.7463</td>
-                    
-                    <td>1.1196</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>5</td>
-                    
-                    <td>Less</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>21.441</td>
-                    
-                    <td>10.72</td>
-                    
-                    <td>11.28</td>
-                    
-                    <td>10.161</td>
-                    
-                    <td>2</td>
-                    
-                    <td>23.921</td>
-                    
-                    <td>11.96</td>
-                    
-                    <td>12.581</td>
-                    
-                    <td>11.34</td>
-                    
-                    <td>2</td>
-                    
-                    <td>1.1157</td>
-                    
-                    <td>1.1157</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>6</td>
-                    
-                    <td>Addcmul</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>11961.336</td>
-                    
-                    <td>35.18</td>
-                    
-                    <td>889.337</td>
-                    
-                    <td>2.0</td>
-                    
-                    <td>340</td>
-                    
-                    <td>12491.693</td>
-                    
-                    <td>36.958</td>
-                    
-                    <td>895.998</td>
-                    
-                    <td>2.04</td>
-                    
-                    <td>338</td>
-                    
-                    <td>1.0443</td>
-                    
-                    <td>1.0505</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>7</td>
-                    
-                    <td>Addcdiv</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>13155.317</td>
-                    
-                    <td>38.692</td>
-                    
-                    <td>1144.902</td>
-                    
-                    <td>1.94</td>
-                    
-                    <td>340</td>
-                    
-                    <td>13414.21</td>
-                    
-                    <td>39.687</td>
-                    
-                    <td>1141.842</td>
-                    
-                    <td>1.98</td>
-                    
-                    <td>338</td>
-                    
-                    <td>1.0197</td>
-                    
-                    <td>1.0257</td>
-                    
-                </tr>
-                
-            </table>
-
-        </div>
-</div>
-
-            
-            
-<div class="collapsible">
-      <h2 class="collapsible-header" style="background-color: ;">Kernel compare of Rank12 Step0 and Rank8 Step0</h2>
-      <div class="collapsible-content">
-            <a style="font-weight: bold" id="timeline_api_instruction_issue">Issue: Kernel compare of Rank12 Step0 and Rank8 Step0. Only show 10 rows here, see mstt_advisor*.xlsx for details</a>
-            <br><br>
-            <table>
-                <tr>
-                
-                    <th> Order Id </th>
-                
-                    <th> Kernel Type </th>
-                
-                    <th> Core Type </th>
-                
-                    <th> Total Duration(us) </th>
-                
-                    <th> Avg Duration(us) </th>
-                
-                    <th> Max Duration(us) </th>
-                
-                    <th> Min Duration(us) </th>
-                
-                    <th> Calls </th>
-                
-                    <th> Benchmark  Total Duration(us) </th>
-                
-                    <th> Benchmark  Avg Duration(us) </th>
-                
-                    <th> Benchmark  Max Duration(us) </th>
-                
-                    <th> Benchmark  Min Duration(us) </th>
-                
-                    <th> Benchmark  Calls </th>
-                
-                    <th> Diff Total Ratio </th>
-                
-                    <th> Diff Avg Ratio </th>
-                
-                </tr>
-
-                
-                <tr>
-                    
-                    <td>1</td>
-                    
-                    <td>GatherV2</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0</td>
-                    
-                    <td>1316.306</td>
-                    
-                    <td>658.153</td>
-                    
-                    <td>660.833</td>
-                    
-                    <td>655.473</td>
-                    
-                    <td>2</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>2</td>
-                    
-                    <td>EmbeddingDenseGradV2</td>
-                    
-                    <td>MIX_AIV</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0</td>
-                    
-                    <td>899.178</td>
-                    
-                    <td>449.589</td>
-                    
-                    <td>451.049</td>
-                    
-                    <td>448.129</td>
-                    
-                    <td>2</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>3</td>
-                    
-                    <td>MemSet</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>122.302</td>
-                    
-                    <td>10.192</td>
-                    
-                    <td>12.68</td>
-                    
-                    <td>6.56</td>
-                    
-                    <td>12</td>
-                    
-                    <td>761.135</td>
-                    
-                    <td>63.428</td>
-                    
-                    <td>337.366</td>
-                    
-                    <td>5.46</td>
-                    
-                    <td>12</td>
-                    
-                    <td>6.2234</td>
-                    
-                    <td>6.2233</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>39</td>
-                    
-                    <td>Range</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>49.381</td>
-                    
-                    <td>12.345</td>
-                    
-                    <td>12.661</td>
-                    
-                    <td>11.921</td>
-                    
-                    <td>4</td>
-                    
-                    <td>29.181</td>
-                    
-                    <td>14.591</td>
-                    
-                    <td>14.64</td>
-                    
-                    <td>14.54</td>
-                    
-                    <td>2</td>
-                    
-                    <td>0.5909</td>
-                    
-                    <td>1.1819</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>4</td>
-                    
-                    <td>GreaterEqual</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>16.901</td>
-                    
-                    <td>8.45</td>
-                    
-                    <td>8.56</td>
-                    
-                    <td>8.341</td>
-                    
-                    <td>2</td>
-                    
-                    <td>19.081</td>
-                    
-                    <td>9.54</td>
-                    
-                    <td>9.681</td>
-                    
-                    <td>9.4</td>
-                    
-                    <td>2</td>
-                    
-                    <td>1.129</td>
-                    
-                    <td>1.129</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>43</td>
-                    
-                    <td>Fill</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>15.881</td>
-                    
-                    <td>1.444</td>
-                    
-                    <td>1.6</td>
-                    
-                    <td>1.3</td>
-                    
-                    <td>11</td>
-                    
-                    <td>6.52</td>
-                    
-                    <td>1.63</td>
-                    
-                    <td>1.88</td>
-                    
-                    <td>1.42</td>
-                    
-                    <td>4</td>
-                    
-                    <td>0.4106</td>
-                    
-                    <td>1.1288</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>38</td>
-                    
-                    <td>LinearIndexV2</td>
-                    
-                    <td>MIX_AIV</td>
-                    
-                    <td>121.502</td>
-                    
-                    <td>20.25</td>
-                    
-                    <td>20.86</td>
-                    
-                    <td>18.881</td>
-                    
-                    <td>6</td>
-                    
-                    <td>90.682</td>
-                    
-                    <td>22.671</td>
-                    
-                    <td>24.34</td>
-                    
-                    <td>21.541</td>
-                    
-                    <td>4</td>
-                    
-                    <td>0.7463</td>
-                    
-                    <td>1.1196</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>5</td>
-                    
-                    <td>Less</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>21.441</td>
-                    
-                    <td>10.72</td>
-                    
-                    <td>11.28</td>
-                    
-                    <td>10.161</td>
-                    
-                    <td>2</td>
-                    
-                    <td>23.921</td>
-                    
-                    <td>11.96</td>
-                    
-                    <td>12.581</td>
-                    
-                    <td>11.34</td>
-                    
-                    <td>2</td>
-                    
-                    <td>1.1157</td>
-                    
-                    <td>1.1157</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>6</td>
-                    
-                    <td>Addcmul</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>11961.336</td>
-                    
-                    <td>35.18</td>
-                    
-                    <td>889.337</td>
-                    
-                    <td>2.0</td>
-                    
-                    <td>340</td>
-                    
-                    <td>12491.693</td>
-                    
-                    <td>36.958</td>
-                    
-                    <td>895.998</td>
-                    
-                    <td>2.04</td>
-                    
-                    <td>338</td>
-                    
-                    <td>1.0443</td>
-                    
-                    <td>1.0505</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>7</td>
-                    
-                    <td>Addcdiv</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>13155.317</td>
-                    
-                    <td>38.692</td>
-                    
-                    <td>1144.902</td>
-                    
-                    <td>1.94</td>
-                    
-                    <td>340</td>
-                    
-                    <td>13414.21</td>
-                    
-                    <td>39.687</td>
-                    
-                    <td>1141.842</td>
-                    
-                    <td>1.98</td>
-                    
-                    <td>338</td>
-                    
-                    <td>1.0197</td>
-                    
-                    <td>1.0257</td>
-                    
-                </tr>
-                
-            </table>
-
-        </div>
-</div>
-
-            
-            
-<div class="collapsible">
-      <h2 class="collapsible-header" style="background-color: ;">Kernel compare of Rank13 Step0 and Rank9 Step0</h2>
-      <div class="collapsible-content">
-            <a style="font-weight: bold" id="timeline_api_instruction_issue">Issue: Kernel compare of Rank13 Step0 and Rank9 Step0. Only show 10 rows here, see mstt_advisor*.xlsx for details</a>
-            <br><br>
-            <table>
-                <tr>
-                
-                    <th> Order Id </th>
-                
-                    <th> Kernel Type </th>
-                
-                    <th> Core Type </th>
-                
-                    <th> Total Duration(us) </th>
-                
-                    <th> Avg Duration(us) </th>
-                
-                    <th> Max Duration(us) </th>
-                
-                    <th> Min Duration(us) </th>
-                
-                    <th> Calls </th>
-                
-                    <th> Benchmark  Total Duration(us) </th>
-                
-                    <th> Benchmark  Avg Duration(us) </th>
-                
-                    <th> Benchmark  Max Duration(us) </th>
-                
-                    <th> Benchmark  Min Duration(us) </th>
-                
-                    <th> Benchmark  Calls </th>
-                
-                    <th> Diff Total Ratio </th>
-                
-                    <th> Diff Avg Ratio </th>
-                
-                </tr>
-
-                
-                <tr>
-                    
-                    <td>1</td>
-                    
-                    <td>GatherV2</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0</td>
-                    
-                    <td>1316.306</td>
-                    
-                    <td>658.153</td>
-                    
-                    <td>660.833</td>
-                    
-                    <td>655.473</td>
-                    
-                    <td>2</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>2</td>
-                    
-                    <td>EmbeddingDenseGradV2</td>
-                    
-                    <td>MIX_AIV</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0</td>
-                    
-                    <td>899.178</td>
-                    
-                    <td>449.589</td>
-                    
-                    <td>451.049</td>
-                    
-                    <td>448.129</td>
-                    
-                    <td>2</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>3</td>
-                    
-                    <td>MemSet</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>122.302</td>
-                    
-                    <td>10.192</td>
-                    
-                    <td>12.68</td>
-                    
-                    <td>6.56</td>
-                    
-                    <td>12</td>
-                    
-                    <td>761.135</td>
-                    
-                    <td>63.428</td>
-                    
-                    <td>337.366</td>
-                    
-                    <td>5.46</td>
-                    
-                    <td>12</td>
-                    
-                    <td>6.2234</td>
-                    
-                    <td>6.2233</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>39</td>
-                    
-                    <td>Range</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>49.381</td>
-                    
-                    <td>12.345</td>
-                    
-                    <td>12.661</td>
-                    
-                    <td>11.921</td>
-                    
-                    <td>4</td>
-                    
-                    <td>29.181</td>
-                    
-                    <td>14.591</td>
-                    
-                    <td>14.64</td>
-                    
-                    <td>14.54</td>
-                    
-                    <td>2</td>
-                    
-                    <td>0.5909</td>
-                    
-                    <td>1.1819</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>4</td>
-                    
-                    <td>GreaterEqual</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>16.901</td>
-                    
-                    <td>8.45</td>
-                    
-                    <td>8.56</td>
-                    
-                    <td>8.341</td>
-                    
-                    <td>2</td>
-                    
-                    <td>19.081</td>
-                    
-                    <td>9.54</td>
-                    
-                    <td>9.681</td>
-                    
-                    <td>9.4</td>
-                    
-                    <td>2</td>
-                    
-                    <td>1.129</td>
-                    
-                    <td>1.129</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>43</td>
-                    
-                    <td>Fill</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>15.881</td>
-                    
-                    <td>1.444</td>
-                    
-                    <td>1.6</td>
-                    
-                    <td>1.3</td>
-                    
-                    <td>11</td>
-                    
-                    <td>6.52</td>
-                    
-                    <td>1.63</td>
-                    
-                    <td>1.88</td>
-                    
-                    <td>1.42</td>
-                    
-                    <td>4</td>
-                    
-                    <td>0.4106</td>
-                    
-                    <td>1.1288</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>38</td>
-                    
-                    <td>LinearIndexV2</td>
-                    
-                    <td>MIX_AIV</td>
-                    
-                    <td>121.502</td>
-                    
-                    <td>20.25</td>
-                    
-                    <td>20.86</td>
-                    
-                    <td>18.881</td>
-                    
-                    <td>6</td>
-                    
-                    <td>90.682</td>
-                    
-                    <td>22.671</td>
-                    
-                    <td>24.34</td>
-                    
-                    <td>21.541</td>
-                    
-                    <td>4</td>
-                    
-                    <td>0.7463</td>
-                    
-                    <td>1.1196</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>5</td>
-                    
-                    <td>Less</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>21.441</td>
-                    
-                    <td>10.72</td>
-                    
-                    <td>11.28</td>
-                    
-                    <td>10.161</td>
-                    
-                    <td>2</td>
-                    
-                    <td>23.921</td>
-                    
-                    <td>11.96</td>
-                    
-                    <td>12.581</td>
-                    
-                    <td>11.34</td>
-                    
-                    <td>2</td>
-                    
-                    <td>1.1157</td>
-                    
-                    <td>1.1157</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>6</td>
-                    
-                    <td>Addcmul</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>11961.336</td>
-                    
-                    <td>35.18</td>
-                    
-                    <td>889.337</td>
-                    
-                    <td>2.0</td>
-                    
-                    <td>340</td>
-                    
-                    <td>12491.693</td>
-                    
-                    <td>36.958</td>
-                    
-                    <td>895.998</td>
-                    
-                    <td>2.04</td>
-                    
-                    <td>338</td>
-                    
-                    <td>1.0443</td>
-                    
-                    <td>1.0505</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>7</td>
-                    
-                    <td>Addcdiv</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>13155.317</td>
-                    
-                    <td>38.692</td>
-                    
-                    <td>1144.902</td>
-                    
-                    <td>1.94</td>
-                    
-                    <td>340</td>
-                    
-                    <td>13414.21</td>
-                    
-                    <td>39.687</td>
-                    
-                    <td>1141.842</td>
-                    
-                    <td>1.98</td>
-                    
-                    <td>338</td>
-                    
-                    <td>1.0197</td>
-                    
-                    <td>1.0257</td>
-                    
-                </tr>
-                
-            </table>
-
-        </div>
-</div>
-
-            
-            
-<div class="collapsible">
-      <h2 class="collapsible-header" style="background-color: ;">Kernel compare of Rank14 Step0 and Rank10 Step0</h2>
-      <div class="collapsible-content">
-            <a style="font-weight: bold" id="timeline_api_instruction_issue">Issue: Kernel compare of Rank14 Step0 and Rank10 Step0. Only show 10 rows here, see mstt_advisor*.xlsx for details</a>
-            <br><br>
-            <table>
-                <tr>
-                
-                    <th> Order Id </th>
-                
-                    <th> Kernel Type </th>
-                
-                    <th> Core Type </th>
-                
-                    <th> Total Duration(us) </th>
-                
-                    <th> Avg Duration(us) </th>
-                
-                    <th> Max Duration(us) </th>
-                
-                    <th> Min Duration(us) </th>
-                
-                    <th> Calls </th>
-                
-                    <th> Benchmark  Total Duration(us) </th>
-                
-                    <th> Benchmark  Avg Duration(us) </th>
-                
-                    <th> Benchmark  Max Duration(us) </th>
-                
-                    <th> Benchmark  Min Duration(us) </th>
-                
-                    <th> Benchmark  Calls </th>
-                
-                    <th> Diff Total Ratio </th>
-                
-                    <th> Diff Avg Ratio </th>
-                
-                </tr>
-
-                
-                <tr>
-                    
-                    <td>1</td>
-                    
-                    <td>GatherV2</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0</td>
-                    
-                    <td>1316.306</td>
-                    
-                    <td>658.153</td>
-                    
-                    <td>660.833</td>
-                    
-                    <td>655.473</td>
-                    
-                    <td>2</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>2</td>
-                    
-                    <td>EmbeddingDenseGradV2</td>
-                    
-                    <td>MIX_AIV</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0</td>
-                    
-                    <td>899.178</td>
-                    
-                    <td>449.589</td>
-                    
-                    <td>451.049</td>
-                    
-                    <td>448.129</td>
-                    
-                    <td>2</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>3</td>
-                    
-                    <td>MemSet</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>122.302</td>
-                    
-                    <td>10.192</td>
-                    
-                    <td>12.68</td>
-                    
-                    <td>6.56</td>
-                    
-                    <td>12</td>
-                    
-                    <td>761.135</td>
-                    
-                    <td>63.428</td>
-                    
-                    <td>337.366</td>
-                    
-                    <td>5.46</td>
-                    
-                    <td>12</td>
-                    
-                    <td>6.2234</td>
-                    
-                    <td>6.2233</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>39</td>
-                    
-                    <td>Range</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>49.381</td>
-                    
-                    <td>12.345</td>
-                    
-                    <td>12.661</td>
-                    
-                    <td>11.921</td>
-                    
-                    <td>4</td>
-                    
-                    <td>29.181</td>
-                    
-                    <td>14.591</td>
-                    
-                    <td>14.64</td>
-                    
-                    <td>14.54</td>
-                    
-                    <td>2</td>
-                    
-                    <td>0.5909</td>
-                    
-                    <td>1.1819</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>4</td>
-                    
-                    <td>GreaterEqual</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>16.901</td>
-                    
-                    <td>8.45</td>
-                    
-                    <td>8.56</td>
-                    
-                    <td>8.341</td>
-                    
-                    <td>2</td>
-                    
-                    <td>19.081</td>
-                    
-                    <td>9.54</td>
-                    
-                    <td>9.681</td>
-                    
-                    <td>9.4</td>
-                    
-                    <td>2</td>
-                    
-                    <td>1.129</td>
-                    
-                    <td>1.129</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>43</td>
-                    
-                    <td>Fill</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>15.881</td>
-                    
-                    <td>1.444</td>
-                    
-                    <td>1.6</td>
-                    
-                    <td>1.3</td>
-                    
-                    <td>11</td>
-                    
-                    <td>6.52</td>
-                    
-                    <td>1.63</td>
-                    
-                    <td>1.88</td>
-                    
-                    <td>1.42</td>
-                    
-                    <td>4</td>
-                    
-                    <td>0.4106</td>
-                    
-                    <td>1.1288</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>38</td>
-                    
-                    <td>LinearIndexV2</td>
-                    
-                    <td>MIX_AIV</td>
-                    
-                    <td>121.502</td>
-                    
-                    <td>20.25</td>
-                    
-                    <td>20.86</td>
-                    
-                    <td>18.881</td>
-                    
-                    <td>6</td>
-                    
-                    <td>90.682</td>
-                    
-                    <td>22.671</td>
-                    
-                    <td>24.34</td>
-                    
-                    <td>21.541</td>
-                    
-                    <td>4</td>
-                    
-                    <td>0.7463</td>
-                    
-                    <td>1.1196</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>5</td>
-                    
-                    <td>Less</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>21.441</td>
-                    
-                    <td>10.72</td>
-                    
-                    <td>11.28</td>
-                    
-                    <td>10.161</td>
-                    
-                    <td>2</td>
-                    
-                    <td>23.921</td>
-                    
-                    <td>11.96</td>
-                    
-                    <td>12.581</td>
-                    
-                    <td>11.34</td>
-                    
-                    <td>2</td>
-                    
-                    <td>1.1157</td>
-                    
-                    <td>1.1157</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>6</td>
-                    
-                    <td>Addcmul</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>11961.336</td>
-                    
-                    <td>35.18</td>
-                    
-                    <td>889.337</td>
-                    
-                    <td>2.0</td>
-                    
-                    <td>340</td>
-                    
-                    <td>12491.693</td>
-                    
-                    <td>36.958</td>
-                    
-                    <td>895.998</td>
-                    
-                    <td>2.04</td>
-                    
-                    <td>338</td>
-                    
-                    <td>1.0443</td>
-                    
-                    <td>1.0505</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>7</td>
-                    
-                    <td>Addcdiv</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>13155.317</td>
-                    
-                    <td>38.692</td>
-                    
-                    <td>1144.902</td>
-                    
-                    <td>1.94</td>
-                    
-                    <td>340</td>
-                    
-                    <td>13414.21</td>
-                    
-                    <td>39.687</td>
-                    
-                    <td>1141.842</td>
-                    
-                    <td>1.98</td>
-                    
-                    <td>338</td>
-                    
-                    <td>1.0197</td>
-                    
-                    <td>1.0257</td>
-                    
-                </tr>
-                
-            </table>
-
-        </div>
-</div>
-
-            
-            
-<div class="collapsible">
-      <h2 class="collapsible-header" style="background-color: ;">Kernel compare of Rank15 Step0 and Rank11 Step0</h2>
-      <div class="collapsible-content">
-            <a style="font-weight: bold" id="timeline_api_instruction_issue">Issue: Kernel compare of Rank15 Step0 and Rank11 Step0. Only show 10 rows here, see mstt_advisor*.xlsx for details</a>
-            <br><br>
-            <table>
-                <tr>
-                
-                    <th> Order Id </th>
-                
-                    <th> Kernel Type </th>
-                
-                    <th> Core Type </th>
-                
-                    <th> Total Duration(us) </th>
-                
-                    <th> Avg Duration(us) </th>
-                
-                    <th> Max Duration(us) </th>
-                
-                    <th> Min Duration(us) </th>
-                
-                    <th> Calls </th>
-                
-                    <th> Benchmark  Total Duration(us) </th>
-                
-                    <th> Benchmark  Avg Duration(us) </th>
-                
-                    <th> Benchmark  Max Duration(us) </th>
-                
-                    <th> Benchmark  Min Duration(us) </th>
-                
-                    <th> Benchmark  Calls </th>
-                
-                    <th> Diff Total Ratio </th>
-                
-                    <th> Diff Avg Ratio </th>
-                
-                </tr>
-
-                
-                <tr>
-                    
-                    <td>1</td>
-                    
-                    <td>GatherV2</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0</td>
-                    
-                    <td>1316.306</td>
-                    
-                    <td>658.153</td>
-                    
-                    <td>660.833</td>
-                    
-                    <td>655.473</td>
-                    
-                    <td>2</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>2</td>
-                    
-                    <td>EmbeddingDenseGradV2</td>
-                    
-                    <td>MIX_AIV</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0</td>
-                    
-                    <td>899.178</td>
-                    
-                    <td>449.589</td>
-                    
-                    <td>451.049</td>
-                    
-                    <td>448.129</td>
-                    
-                    <td>2</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>3</td>
-                    
-                    <td>MemSet</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>122.302</td>
-                    
-                    <td>10.192</td>
-                    
-                    <td>12.68</td>
-                    
-                    <td>6.56</td>
-                    
-                    <td>12</td>
-                    
-                    <td>761.135</td>
-                    
-                    <td>63.428</td>
-                    
-                    <td>337.366</td>
-                    
-                    <td>5.46</td>
-                    
-                    <td>12</td>
-                    
-                    <td>6.2234</td>
-                    
-                    <td>6.2233</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>39</td>
-                    
-                    <td>Range</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>49.381</td>
-                    
-                    <td>12.345</td>
-                    
-                    <td>12.661</td>
-                    
-                    <td>11.921</td>
-                    
-                    <td>4</td>
-                    
-                    <td>29.181</td>
-                    
-                    <td>14.591</td>
-                    
-                    <td>14.64</td>
-                    
-                    <td>14.54</td>
-                    
-                    <td>2</td>
-                    
-                    <td>0.5909</td>
-                    
-                    <td>1.1819</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>4</td>
-                    
-                    <td>GreaterEqual</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>16.901</td>
-                    
-                    <td>8.45</td>
-                    
-                    <td>8.56</td>
-                    
-                    <td>8.341</td>
-                    
-                    <td>2</td>
-                    
-                    <td>19.081</td>
-                    
-                    <td>9.54</td>
-                    
-                    <td>9.681</td>
-                    
-                    <td>9.4</td>
-                    
-                    <td>2</td>
-                    
-                    <td>1.129</td>
-                    
-                    <td>1.129</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>43</td>
-                    
-                    <td>Fill</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>15.881</td>
-                    
-                    <td>1.444</td>
-                    
-                    <td>1.6</td>
-                    
-                    <td>1.3</td>
-                    
-                    <td>11</td>
-                    
-                    <td>6.52</td>
-                    
-                    <td>1.63</td>
-                    
-                    <td>1.88</td>
-                    
-                    <td>1.42</td>
-                    
-                    <td>4</td>
-                    
-                    <td>0.4106</td>
-                    
-                    <td>1.1288</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>38</td>
-                    
-                    <td>LinearIndexV2</td>
-                    
-                    <td>MIX_AIV</td>
-                    
-                    <td>121.502</td>
-                    
-                    <td>20.25</td>
-                    
-                    <td>20.86</td>
-                    
-                    <td>18.881</td>
-                    
-                    <td>6</td>
-                    
-                    <td>90.682</td>
-                    
-                    <td>22.671</td>
-                    
-                    <td>24.34</td>
-                    
-                    <td>21.541</td>
-                    
-                    <td>4</td>
-                    
-                    <td>0.7463</td>
-                    
-                    <td>1.1196</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>5</td>
-                    
-                    <td>Less</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>21.441</td>
-                    
-                    <td>10.72</td>
-                    
-                    <td>11.28</td>
-                    
-                    <td>10.161</td>
-                    
-                    <td>2</td>
-                    
-                    <td>23.921</td>
-                    
-                    <td>11.96</td>
-                    
-                    <td>12.581</td>
-                    
-                    <td>11.34</td>
-                    
-                    <td>2</td>
-                    
-                    <td>1.1157</td>
-                    
-                    <td>1.1157</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>6</td>
-                    
-                    <td>Addcmul</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>11961.336</td>
-                    
-                    <td>35.18</td>
-                    
-                    <td>889.337</td>
-                    
-                    <td>2.0</td>
-                    
-                    <td>340</td>
-                    
-                    <td>12491.693</td>
-                    
-                    <td>36.958</td>
-                    
-                    <td>895.998</td>
-                    
-                    <td>2.04</td>
-                    
-                    <td>338</td>
-                    
-                    <td>1.0443</td>
-                    
-                    <td>1.0505</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>7</td>
-                    
-                    <td>Addcdiv</td>
-                    
-                    <td>AI_VECTOR_CORE</td>
-                    
-                    <td>13155.317</td>
-                    
-                    <td>38.692</td>
-                    
-                    <td>1144.902</td>
-                    
-                    <td>1.94</td>
-                    
-                    <td>340</td>
-                    
-                    <td>13414.21</td>
-                    
-                    <td>39.687</td>
-                    
-                    <td>1141.842</td>
-                    
-                    <td>1.98</td>
-                    
-                    <td>338</td>
-                    
-                    <td>1.0197</td>
-                    
-                    <td>1.0257</td>
-                    
-                </tr>
-                
-            </table>
-
-        </div>
-</div>
-
-            
-            
-<div class="collapsible">
-      <h2 class="collapsible-header" style="background-color: ;">Api compare of Rank6 Step0 and Rank11 Step0</h2>
-      <div class="collapsible-content">
-            <a style="font-weight: bold" id="timeline_api_instruction_issue">Issue: Api compare of Rank6 Step0 and Rank11 Step0. Only show 10 rows here, see mstt_advisor*.xlsx for details</a>
-            <br><br>
-            <table>
-                <tr>
-                
-                    <th> Order Id </th>
-                
-                    <th> api name </th>
-                
-                    <th> Total Duration(ms) </th>
-                
-                    <th> Self Time(ms) </th>
-                
-                    <th> Avg Duration(ms) </th>
-                
-                    <th> Calls </th>
-                
-                    <th> Benchmark  Total Duration(ms) </th>
-                
-                    <th> Benchmark  Self Time(ms) </th>
-                
-                    <th> Benchmark  Avg Duration(ms) </th>
-                
-                    <th> Benchmark  Calls </th>
-                
-                    <th> Diff Total Ratio </th>
-                
-                    <th> Diff Self Ratio </th>
-                
-                    <th> Diff Avg Ratio </th>
-                
-                    <th> Diff Calls Ratio </th>
-                
-                </tr>
-
-                
-                <tr>
-                    
-                    <td>229</td>
-                    
-                    <td>aten::embedding</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0</td>
-                    
-                    <td>14.49</td>
-                    
-                    <td>13.97</td>
-                    
-                    <td>7.25</td>
-                    
-                    <td>2</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>230</td>
-                    
-                    <td>_ReduceForward</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0</td>
-                    
-                    <td>3.49</td>
-                    
-                    <td>1.66</td>
-                    
-                    <td>1.75</td>
-                    
-                    <td>2</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>231</td>
-                    
-                    <td>_SplitForwardGatherBackward</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0</td>
-                    
-                    <td>4.24</td>
-                    
-                    <td>1.03</td>
-                    
-                    <td>2.12</td>
-                    
-                    <td>2</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>232</td>
-                    
-                    <td>autograd::engine::evaluate_function: _SplitForwardGatherBackwardBackward</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0</td>
-                    
-                    <td>3.28</td>
-                    
-                    <td>0.05</td>
-                    
-                    <td>1.64</td>
-                    
-                    <td>2</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>233</td>
-                    
-                    <td>autograd::engine::evaluate_function: _ReduceForwardBackward</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0</td>
-                    
-                    <td>0.08</td>
-                    
-                    <td>0.02</td>
-                    
-                    <td>0.04</td>
-                    
-                    <td>2</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>234</td>
-                    
-                    <td>autograd::engine::evaluate_function: torch::autograd::CopySlices</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0</td>
-                    
-                    <td>38440.37</td>
-                    
-                    <td>0.24</td>
-                    
-                    <td>19220.19</td>
-                    
-                    <td>2</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>235</td>
-                    
-                    <td>autograd::engine::evaluate_function: EmbeddingBackward0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0</td>
-                    
-                    <td>5.91</td>
-                    
-                    <td>0.06</td>
-                    
-                    <td>2.96</td>
-                    
-                    <td>2</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>236</td>
-                    
-                    <td>aclnnEmbedding</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0</td>
-                    
-                    <td>0.18</td>
-                    
-                    <td>0.18</td>
-                    
-                    <td>0.09</td>
-                    
-                    <td>2</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>237</td>
-                    
-                    <td>_SplitForwardGatherBackwardBackward</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0</td>
-                    
-                    <td>3.24</td>
-                    
-                    <td>0.39</td>
-                    
-                    <td>1.62</td>
-                    
-                    <td>2</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>238</td>
-                    
-                    <td>_ReduceForwardBackward</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0.0</td>
-                    
-                    <td>0</td>
-                    
-                    <td>0.06</td>
-                    
-                    <td>0.06</td>
-                    
-                    <td>0.03</td>
-                    
-                    <td>2</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                    <td>inf</td>
-                    
-                </tr>
-                
-            </table>
-
-        </div>
-</div>
-
-            
-        </div>
-    </div>
-    
-
-    
-
-    <div class="collapsible">
-      <h2 class="collapsible-header">performance problem analysis</h2>
-      <div class="collapsible-content">
-
-
-      
-        <div class="collapsible">
-          <h2 class="collapsible-header">memory</h2>
-          <div class="collapsible-content">
-            
-            <div class="collapsible">
-  <h2 class="collapsible-header" style="background-color: #65c294;">Memory Operator Issues</h2>
-  <div class="collapsible-content">
-  
-  <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 6. </a>
-  
-    <a style="font-weight: bold" id="timeline_api_instruction">发现了243个AscendCL@aclMallocMemInner算子，花费55469.200000000004us，这将导致大量的空闲时间。 </a>
-    <table>
-        <tr>
-            <th>Suggestions</th>
-        </tr>
-
-        
-            <tr>
-                <td>1. For AscendCL@aclMallocMemInner: 请通过命令'export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True'设置环境变量，然后开始训练任务。</td>
-            </tr>
-        
-    </table>
-
-  </div>
-</div>
-            
-          </div>
-        </div>
-      
-        <div class="collapsible">
-          <h2 class="collapsible-header">computation</h2>
-          <div class="collapsible-content">
-            
-            
-<div class="collapsible">
-    <h2 class="collapsible-header">Pipeline Parallel Stages Issues</h2>
-    <div class="collapsible-content">
-      
-      <div class="collapsible">
-          <h2 class="collapsible-header">stage-0</h2>
-          <div class="collapsible-content">
-                <a style="font-weight: bold" id="timeline_api_instruction">Description: analysis for slow rank 4 in current stage</a>
-                <br><br>
-                
-                    <div class="collapsible">
-    <h2 class="collapsible-header" style="background-color: #65c294;">Operator Dynamic Shape Issues</h2>
-    <div class="collapsible-content">
-        
-        <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 4. </a>
-        
-        <table>
-            <tr>
-                <th>Description</th>
-                <th>Suggestion</th>
-            </tr>
-            <tr>
-                <td>找到所有是动态shape的算子</td>
-                <td>在python脚本入口加入以下代码关闭在线编译：<br>'torch_npu.npu.set_compile_mode(jit_compile=False) <br> torch_npu.npu.config.allow_internal_format = False' <br>详细信息请参考：<a href=https://www.hiascend.com/document/detail/zh/canncommercial/700/modeldevpt/ptmigr/AImpug_000060.html target='_blank'>链接</a></td>
-            </tr>
-        </table>
-    </div>
-</div>
-                
-                    <div class="collapsible">
-    <h2 class="collapsible-header" style="background-color: #65c294;">AICPU Issues</h2>
-    <div class="collapsible-content">
-        
-        <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 4. </a>
-        
-        <table>
-            <tr>
-                <th>Description</th>
-                <th>Suggestion</th>
-                <th>Elapsed Time(us)</th>
-                <th>Time Ratio</th>
-            </tr>
-            <tr>
-                <td>一些算子和任务执行时间超过了20us，比如：
-IndexPut</td>
-                <td>修改代码避免使用aicpu类算子</td>
-                <td>12336.79</td>
-                <td>0.0003</td>
-            </tr>
-        </table>
-        <div class="collapsible">
-            
-            <div class="collapsible-header">IndexPut</div>
-            <div class="collapsible-content">
-                <table>
-                    <tr>
-                        <th>Operator Type</th>
-                        <th>Counts</th>
-                        <th>Elapsed Time(us)</th>
-                    </tr>
-                    <tr>
-                        <td>IndexPut</td>
-                        <td>2</td>
-                        <td>12336.79</td>
-                    </tr>
-                </table>
-                <div class="collapsible">
-                    
-                    <div class="collapsible-header">
-                        <b>IndexPut</b> | Input DType:(INT64;INT64;INT64;INT64) | Output DType:(INT64) | Counts:2 | Elapsed Time(us):12336.79
-                    </div>
-                    <div class="collapsible-content">
-                        
-                        <div>
-                            
-                            <p>
-                                <b>Suggestion 1:</b> <u>请参考<a href='https://gitee.com/ascend/mstt/blob/master/profiler/msprof_analyze/advisor/doc/Samples%20of%20AI%20CPU%20Operator%20Replacement.md' target='_blank'>链接</a>修改源码，尝试用等价的算子替换indexput算子。</u>
-                            </p>
-                            
-                        </div>
-                        
-                        <div class="separator"></div>
-                        <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(84): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(249): cross_entropy_1d;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(334): dist_cross_entropy;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(360): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): <module></a>
-                    </div>
-                    
-                </div>
-            </div>
-            
-        </div>
-    </div>
-</div>
-                
-                    
-<div class="collapsible">
-      <h2 class="collapsible-header" style="background-color: #B5495B;">AI Core Frequency Issues</h2>
-      <div class="collapsible-content">
-            
-            <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 4. </a>
-            
-            <a style="font-weight: bold" id="timeline_api_instruction_issue">Issue: 对于4号卡，在降频期间发现1个算子，频率降低比例超过了0.05。 Only show 10 operators here, see latest mstt_advisor.xlsx for details.</a>
-            <br>
-            <a style="font-weight: bold" id="timeline_api_suggestion">Suggestion: </a>
-            <br><br>
-            <table>
-                <tr>
-                
-                    <th> Operator name </th>
-                
-                    <th> Count </th>
-                
-                    <th> Total duration(us) </th>
-                
-                    <th> AI CORE frequency decreased ratio </th>
-                
-                    <th> Average frequency </th>
-                
-                    <th> Max frequency </th>
-                
-                    <th> Min frequency </th>
-                
-                </tr>
-
-                
-                <tr>
-                    
-                    <td>aclnnInplaceFillScalar_FillAiCore_Fill</td>
-                    
-                    <td>11</td>
-                    
-                    <td>15.88</td>
-                    
-                    <td>5.05%</td>
-                    
-                    <td>1709.09</td>
-                    
-                    <td>1800.0</td>
-                    
-                    <td>800.0</td>
-                    
-                </tr>
-                
-            </table>
-
-        </div>
-</div>
-
-                
-                    
-<style>
-    .typecol {
-        width: 30%;
-    }
-</style>
-<div class="collapsible">
-    <h2 class="collapsible-header" style="background-color: #65c294;">AI Core Performance Analysis</h2>
-    <div class="collapsible-content">
-        
-        
-        
-        
-        <a style="font-weight: bold" id="cube_analyze">Cube算子相关分析，参考如下: </a>
-        <br>
-        <table>
-            <tr>
-                <th class="typecol">类别</th>
-                <th>描述及建议</th>
-            </tr>
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            <tr>
-                <td>性能优化算子集合</td>
-                <td>
-                <table>
-                <tr><th>name</th><th>shape</th><th>dtype</th><th> 参考性能优化空间</th></tr>
-                    <tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;4736,3584</td><td>DT_BF16;DT_BF16</td><td>9.59%</td></tr><tr><td>aclnnAddmm_MatMulCommon_MatMulV2</td><td>16384,3584;896,3584;896</td><td>DT_BF16;DT_BF16;FLOAT</td><td>9.58%</td></tr><tr><td>aclnnAddmm_MatMulCommon_MatMulV2</td><td>16384,3584;128,3584;128</td><td>DT_BF16;DT_BF16;FLOAT</td><td>4.92%</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;38016,3584</td><td>DT_BF16;DT_BF16</td><td>1.9%</td></tr></tr>
-                </table>
-                </td>
-            </tr>
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            <tr>
-                <td>不亲和算子集合</td>
-                <td>
-                <table>
-                <tr><th>name</th><th>shape</th><th>dtype</th><th> 不亲和类型为</th></tr>
-                    <tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;16384,3584</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;4736,3584</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;16384,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;3584,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;3584,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr></tr>
-                </table>
-                </td>
-            </tr>
-            
-        </table>
-        
-
-        
-        <a style="font-weight: bold" id="fa_analyze">FA算子相关分析，参考如下: </a>
-        <br>
-        <table>
-            <tr>
-                <th class="typecol">类别</th>
-                <th>描述及建议</th>
-            </tr>
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            <tr>
-                <td>bound算子集合</td>
-                <td>
-                <table>
-                <tr><th>name</th><th>shape</th><th>dtype</th><th> bound类型为</th></tr>
-                    <tr><tr><td>aclnnFlashAttentionScoreGrad_FlashAttentionScoreGrad_FlashAttentionScoreGrad</td><td>1,7,16384,128;1,7,16384,128;1,7,16384,128;1,7,16384,128;16384,16384;1,7,16384,8;1,7,16384,8;;1,7,16384,128;</td><td>DT_BF16;DT_BF16;DT_BF16;DT_BF16;BOOL;FLOAT;FLOAT;DT_BF16;DT_BF16;INT64</td><td>fixpipe</td></tr><tr><td>aclnnFlashAttentionScore_FlashAttentionScore_FlashAttentionScore</td><td>1,7,16384,128;1,7,16384,128;1,7,16384,128;;;;16384,16384;;;;;</td><td>None</td><td>vec</td></tr></tr>
-                </table>
-                </td>
-            </tr>
-            
-            
-            
-            
-        </table>
-        
-
-        
-    </div>
-</div>
-
-                
-          </div>
-      </div>
-      
-      <div class="collapsible">
-          <h2 class="collapsible-header">stage-1</h2>
-          <div class="collapsible-content">
-                <a style="font-weight: bold" id="timeline_api_instruction">Description: analysis for slow rank 5 in current stage</a>
-                <br><br>
-                
-                    <div class="collapsible">
-    <h2 class="collapsible-header" style="background-color: #65c294;">Operator Dynamic Shape Issues</h2>
-    <div class="collapsible-content">
-        
-        <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 5. </a>
-        
-        <table>
-            <tr>
-                <th>Description</th>
-                <th>Suggestion</th>
-            </tr>
-            <tr>
-                <td>找到所有是动态shape的算子</td>
-                <td>在python脚本入口加入以下代码关闭在线编译：<br>'torch_npu.npu.set_compile_mode(jit_compile=False) <br> torch_npu.npu.config.allow_internal_format = False' <br>详细信息请参考：<a href=https://www.hiascend.com/document/detail/zh/canncommercial/700/modeldevpt/ptmigr/AImpug_000060.html target='_blank'>链接</a></td>
-            </tr>
-        </table>
-    </div>
-</div>
-                
-                    <div class="collapsible">
-    <h2 class="collapsible-header" style="background-color: #65c294;">AICPU Issues</h2>
-    <div class="collapsible-content">
-        
-        <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 5. </a>
-        
-        <table>
-            <tr>
-                <th>Description</th>
-                <th>Suggestion</th>
-                <th>Elapsed Time(us)</th>
-                <th>Time Ratio</th>
-            </tr>
-            <tr>
-                <td>一些算子和任务执行时间超过了20us，比如：
-IndexPut</td>
-                <td>修改代码避免使用aicpu类算子</td>
-                <td>12350.77</td>
-                <td>0.0002</td>
-            </tr>
-        </table>
-        <div class="collapsible">
-            
-            <div class="collapsible-header">IndexPut</div>
-            <div class="collapsible-content">
-                <table>
-                    <tr>
-                        <th>Operator Type</th>
-                        <th>Counts</th>
-                        <th>Elapsed Time(us)</th>
-                    </tr>
-                    <tr>
-                        <td>IndexPut</td>
-                        <td>2</td>
-                        <td>12350.77</td>
-                    </tr>
-                </table>
-                <div class="collapsible">
-                    
-                    <div class="collapsible-header">
-                        <b>IndexPut</b> | Input DType:(INT64;INT64;INT64;INT64) | Output DType:(INT64) | Counts:2 | Elapsed Time(us):12350.77
-                    </div>
-                    <div class="collapsible-content">
-                        
-                        <div>
-                            
-                            <p>
-                                <b>Suggestion 1:</b> <u>请参考<a href='https://gitee.com/ascend/mstt/blob/master/profiler/msprof_analyze/advisor/doc/Samples%20of%20AI%20CPU%20Operator%20Replacement.md' target='_blank'>链接</a>修改源码，尝试用等价的算子替换indexput算子。</u>
-                            </p>
-                            
-                        </div>
-                        
-                        <div class="separator"></div>
-                        <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(84): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(249): cross_entropy_1d;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(334): dist_cross_entropy;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(360): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): <module></a>
-                    </div>
-                    
-                </div>
-            </div>
-            
-        </div>
-    </div>
-</div>
-                
-                    
-<style>
-    .typecol {
-        width: 30%;
-    }
-</style>
-<div class="collapsible">
-    <h2 class="collapsible-header" style="background-color: #65c294;">AI Core Performance Analysis</h2>
-    <div class="collapsible-content">
-        
-        
-        
-        
-        <a style="font-weight: bold" id="cube_analyze">Cube算子相关分析，参考如下: </a>
-        <br>
-        <table>
-            <tr>
-                <th class="typecol">类别</th>
-                <th>描述及建议</th>
-            </tr>
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            <tr>
-                <td>性能优化算子集合</td>
-                <td>
-                <table>
-                <tr><th>name</th><th>shape</th><th>dtype</th><th> 参考性能优化空间</th></tr>
-                    <tr><tr><td>aclnnAddmm_MatMulCommon_MatMulV2</td><td>16384,3584;896,3584;896</td><td>DT_BF16;DT_BF16;FLOAT</td><td>9.65%</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;4736,3584</td><td>DT_BF16;DT_BF16</td><td>9.49%</td></tr><tr><td>aclnnAddmm_MatMulCommon_MatMulV2</td><td>16384,3584;128,3584;128</td><td>DT_BF16;DT_BF16;FLOAT</td><td>4.55%</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;38016,3584</td><td>DT_BF16;DT_BF16</td><td>1.85%</td></tr></tr>
-                </table>
-                </td>
-            </tr>
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            <tr>
-                <td>不亲和算子集合</td>
-                <td>
-                <table>
-                <tr><th>name</th><th>shape</th><th>dtype</th><th> 不亲和类型为</th></tr>
-                    <tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;16384,3584</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;4736,3584</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;16384,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;3584,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;3584,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr></tr>
-                </table>
-                </td>
-            </tr>
-            
-        </table>
-        
-
-        
-        <a style="font-weight: bold" id="fa_analyze">FA算子相关分析，参考如下: </a>
-        <br>
-        <table>
-            <tr>
-                <th class="typecol">类别</th>
-                <th>描述及建议</th>
-            </tr>
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            <tr>
-                <td>bound算子集合</td>
-                <td>
-                <table>
-                <tr><th>name</th><th>shape</th><th>dtype</th><th> bound类型为</th></tr>
-                    <tr><tr><td>aclnnFlashAttentionScoreGrad_FlashAttentionScoreGrad_FlashAttentionScoreGrad</td><td>1,7,16384,128;1,7,16384,128;1,7,16384,128;1,7,16384,128;16384,16384;1,7,16384,8;1,7,16384,8;;1,7,16384,128;</td><td>DT_BF16;DT_BF16;DT_BF16;DT_BF16;BOOL;FLOAT;FLOAT;DT_BF16;DT_BF16;INT64</td><td>fixpipe</td></tr><tr><td>aclnnFlashAttentionScore_FlashAttentionScore_FlashAttentionScore</td><td>1,7,16384,128;1,7,16384,128;1,7,16384,128;;;;16384,16384;;;;;</td><td>None</td><td>vec</td></tr></tr>
-                </table>
-                </td>
-            </tr>
-            
-            
-            
-            
-        </table>
-        
-
-        
-    </div>
-</div>
-
-                
-          </div>
-      </div>
-      
-      <div class="collapsible">
-          <h2 class="collapsible-header">stage-2</h2>
-          <div class="collapsible-content">
-                <a style="font-weight: bold" id="timeline_api_instruction">Description: analysis for slow rank 6 in current stage</a>
-                <br><br>
-                
-                    <div class="collapsible">
-    <h2 class="collapsible-header" style="background-color: #65c294;">Operator Dynamic Shape Issues</h2>
-    <div class="collapsible-content">
-        
-        <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 6. </a>
-        
-        <table>
-            <tr>
-                <th>Description</th>
-                <th>Suggestion</th>
-            </tr>
-            <tr>
-                <td>找到所有是动态shape的算子</td>
-                <td>在python脚本入口加入以下代码关闭在线编译：<br>'torch_npu.npu.set_compile_mode(jit_compile=False) <br> torch_npu.npu.config.allow_internal_format = False' <br>详细信息请参考：<a href=https://www.hiascend.com/document/detail/zh/canncommercial/700/modeldevpt/ptmigr/AImpug_000060.html target='_blank'>链接</a></td>
-            </tr>
-        </table>
-    </div>
-</div>
-                
-                    <div class="collapsible">
-    <h2 class="collapsible-header" style="background-color: #65c294;">AICPU Issues</h2>
-    <div class="collapsible-content">
-        
-        <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 6. </a>
-        
-        <table>
-            <tr>
-                <th>Description</th>
-                <th>Suggestion</th>
-                <th>Elapsed Time(us)</th>
-                <th>Time Ratio</th>
-            </tr>
-            <tr>
-                <td>一些算子和任务执行时间超过了20us，比如：
-IndexPut</td>
-                <td>修改代码避免使用aicpu类算子</td>
-                <td>12259.62</td>
-                <td>0.0024</td>
-            </tr>
-        </table>
-        <div class="collapsible">
-            
-            <div class="collapsible-header">IndexPut</div>
-            <div class="collapsible-content">
-                <table>
-                    <tr>
-                        <th>Operator Type</th>
-                        <th>Counts</th>
-                        <th>Elapsed Time(us)</th>
-                    </tr>
-                    <tr>
-                        <td>IndexPut</td>
-                        <td>2</td>
-                        <td>12259.62</td>
-                    </tr>
-                </table>
-                <div class="collapsible">
-                    
-                    <div class="collapsible-header">
-                        <b>IndexPut</b> | Input DType:(INT64;INT64;INT64;INT64) | Output DType:(INT64) | Counts:2 | Elapsed Time(us):12259.62
-                    </div>
-                    <div class="collapsible-content">
-                        
-                        <div>
-                            
-                            <p>
-                                <b>Suggestion 1:</b> <u>请参考<a href='https://gitee.com/ascend/mstt/blob/master/profiler/msprof_analyze/advisor/doc/Samples%20of%20AI%20CPU%20Operator%20Replacement.md' target='_blank'>链接</a>修改源码，尝试用等价的算子替换indexput算子。</u>
-                            </p>
-                            
-                        </div>
-                        
-                        <div class="separator"></div>
-                        <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(84): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(249): cross_entropy_1d;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(334): dist_cross_entropy;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(360): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): <module></a>
-                    </div>
-                    
-                </div>
-            </div>
-            
-        </div>
-    </div>
-</div>
-                
-                    
-<style>
-    .typecol {
-        width: 30%;
-    }
-</style>
-<div class="collapsible">
-    <h2 class="collapsible-header" style="background-color: #65c294;">AI Core Performance Analysis</h2>
-    <div class="collapsible-content">
-        
-        
-        
-        
-        <a style="font-weight: bold" id="cube_analyze">Cube算子相关分析，参考如下: </a>
-        <br>
-        <table>
-            <tr>
-                <th class="typecol">类别</th>
-                <th>描述及建议</th>
-            </tr>
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            <tr>
-                <td>性能优化算子集合</td>
-                <td>
-                <table>
-                <tr><th>name</th><th>shape</th><th>dtype</th><th> 参考性能优化空间</th></tr>
-                    <tr><tr><td>aclnnAddmm_MatMulCommon_MatMulV2</td><td>16384,3584;896,3584;896</td><td>DT_BF16;DT_BF16;FLOAT</td><td>9.69%</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;4736,3584</td><td>DT_BF16;DT_BF16</td><td>9.49%</td></tr><tr><td>aclnnAddmm_MatMulCommon_MatMulV2</td><td>16384,3584;128,3584;128</td><td>DT_BF16;DT_BF16;FLOAT</td><td>4.94%</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;38016,3584</td><td>DT_BF16;DT_BF16</td><td>1.95%</td></tr></tr>
-                </table>
-                </td>
-            </tr>
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            <tr>
-                <td>不亲和算子集合</td>
-                <td>
-                <table>
-                <tr><th>name</th><th>shape</th><th>dtype</th><th> 不亲和类型为</th></tr>
-                    <tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;16384,3584</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;4736,3584</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;16384,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;3584,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;3584,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr></tr>
-                </table>
-                </td>
-            </tr>
-            
-        </table>
-        
-
-        
-        <a style="font-weight: bold" id="fa_analyze">FA算子相关分析，参考如下: </a>
-        <br>
-        <table>
-            <tr>
-                <th class="typecol">类别</th>
-                <th>描述及建议</th>
-            </tr>
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            <tr>
-                <td>bound算子集合</td>
-                <td>
-                <table>
-                <tr><th>name</th><th>shape</th><th>dtype</th><th> bound类型为</th></tr>
-                    <tr><tr><td>aclnnFlashAttentionScoreGrad_FlashAttentionScoreGrad_FlashAttentionScoreGrad</td><td>1,7,16384,128;1,7,16384,128;1,7,16384,128;1,7,16384,128;16384,16384;1,7,16384,8;1,7,16384,8;;1,7,16384,128;</td><td>DT_BF16;DT_BF16;DT_BF16;DT_BF16;BOOL;FLOAT;FLOAT;DT_BF16;DT_BF16;INT64</td><td>fixpipe</td></tr><tr><td>aclnnFlashAttentionScore_FlashAttentionScore_FlashAttentionScore</td><td>1,7,16384,128;1,7,16384,128;1,7,16384,128;;;;16384,16384;;;;;</td><td>None</td><td>vec</td></tr></tr>
-                </table>
-                </td>
-            </tr>
-            
-            
-            
-            
-        </table>
-        
-
-        
-        <a style="font-weight: bold" id="vector_analyze">Vector算子相关分析，参考如下: </a>
-        <br>
-        <table>
-            <tr>
-                <th class="typecol">类别</th>
-                <th>描述及建议</th>
-            </tr>
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            <tr>
-                <td>性能优化算子集合</td>
-                <td>
-                <table>
-                <tr><th>name</th><th>shape</th><th>dtype</th><th> 参考性能优化空间</th></tr>
-                    <tr><tr><td>aclnnInplaceCopy_TensorMoveAiCore_TensorMove</td><td>3584,4736</td><td>DT_BF16</td><td>70.0%</td></tr><tr><td>aclnnInplaceCopy_TensorMoveAiCore_TensorMove</td><td>896,3584</td><td>DT_BF16</td><td>69.9%</td></tr><tr><td>aclnnInplaceCopy_TensorMoveAiCore_TensorMove</td><td>3584,896</td><td>DT_BF16</td><td>69.88%</td></tr><tr><td>aclnnInplaceCopy_TensorMoveAiCore_TensorMove</td><td>1,1,1,16384,128</td><td>DT_BF16</td><td>69.82%</td></tr><tr><td>aclnnInplaceCopy_TensorMoveAiCore_TensorMove</td><td>1,1,16384,128</td><td>DT_BF16</td><td>69.8%</td></tr></tr>
-                </table>
-                </td>
-            </tr>
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            <tr>
-                <td>bound算子集合</td>
-                <td>
-                <table>
-                <tr><th>name</th><th>shape</th><th>dtype</th><th> bound类型为</th></tr>
-                    <tr><tr><td>aclnnInplaceCopy_TensorMoveAiCore_TensorMove</td><td>1,4096,3584</td><td>DT_BF16</td><td>vec_mte2_mte3</td></tr><tr><td>aclnnMul_MulAiCore_Mul</td><td>1,16384,4736;1,16384,4736</td><td>DT_BF16;DT_BF16</td><td>vec_mte2_mte3</td></tr><tr><td>aclnnMul_MulAiCore_Mul</td><td>1,4096,3584;1,4096,3584</td><td>FLOAT;FLOAT</td><td>vec_mte2_mte3</td></tr><tr><td>aclnnInplaceMul_CastAiCore_Cast</td><td>16383,38016</td><td>FLOAT</td><td>vec_mte2_mte3</td></tr><tr><td>aclnnInplaceMuls_MulAiCore_Mul</td><td>8486912;</td><td>FLOAT;FLOAT</td><td>vec_mte2_mte3</td></tr></tr>
-                </table>
-                </td>
-            </tr>
-            
-        </table>
-        
-    </div>
-</div>
-
-                
-          </div>
-      </div>
-      
-      <div class="collapsible">
-          <h2 class="collapsible-header">stage-3</h2>
-          <div class="collapsible-content">
-                <a style="font-weight: bold" id="timeline_api_instruction">Description: analysis for slow rank 7 in current stage</a>
-                <br><br>
-                
-                    <div class="collapsible">
-    <h2 class="collapsible-header" style="background-color: #65c294;">Operator Dynamic Shape Issues</h2>
-    <div class="collapsible-content">
-        
-        <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 7. </a>
-        
-        <table>
-            <tr>
-                <th>Description</th>
-                <th>Suggestion</th>
-            </tr>
-            <tr>
-                <td>找到所有是动态shape的算子</td>
-                <td>在python脚本入口加入以下代码关闭在线编译：<br>'torch_npu.npu.set_compile_mode(jit_compile=False) <br> torch_npu.npu.config.allow_internal_format = False' <br>详细信息请参考：<a href=https://www.hiascend.com/document/detail/zh/canncommercial/700/modeldevpt/ptmigr/AImpug_000060.html target='_blank'>链接</a></td>
-            </tr>
-        </table>
-    </div>
-</div>
-                
-                    <div class="collapsible">
-    <h2 class="collapsible-header" style="background-color: #65c294;">AICPU Issues</h2>
-    <div class="collapsible-content">
-        
-        <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 7. </a>
-        
-        <table>
-            <tr>
-                <th>Description</th>
-                <th>Suggestion</th>
-                <th>Elapsed Time(us)</th>
-                <th>Time Ratio</th>
-            </tr>
-            <tr>
-                <td>一些算子和任务执行时间超过了20us，比如：
-IndexPut</td>
-                <td>修改代码避免使用aicpu类算子</td>
-                <td>12304.89</td>
-                <td>0.0002</td>
-            </tr>
-        </table>
-        <div class="collapsible">
-            
-            <div class="collapsible-header">IndexPut</div>
-            <div class="collapsible-content">
-                <table>
-                    <tr>
-                        <th>Operator Type</th>
-                        <th>Counts</th>
-                        <th>Elapsed Time(us)</th>
-                    </tr>
-                    <tr>
-                        <td>IndexPut</td>
-                        <td>2</td>
-                        <td>12304.89</td>
-                    </tr>
-                </table>
-                <div class="collapsible">
-                    
-                    <div class="collapsible-header">
-                        <b>IndexPut</b> | Input DType:(INT64;INT64;INT64;INT64) | Output DType:(INT64) | Counts:2 | Elapsed Time(us):12304.89
-                    </div>
-                    <div class="collapsible-content">
-                        
-                        <div>
-                            
-                            <p>
-                                <b>Suggestion 1:</b> <u>请参考<a href='https://gitee.com/ascend/mstt/blob/master/profiler/msprof_analyze/advisor/doc/Samples%20of%20AI%20CPU%20Operator%20Replacement.md' target='_blank'>链接</a>修改源码，尝试用等价的算子替换indexput算子。</u>
-                            </p>
-                            
-                        </div>
-                        
-                        <div class="separator"></div>
-                        <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(84): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(249): cross_entropy_1d;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(334): dist_cross_entropy;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(360): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): <module></a>
-                    </div>
-                    
-                </div>
-            </div>
-            
-        </div>
-    </div>
-</div>
-                
-                    
-<style>
-    .typecol {
-        width: 30%;
-    }
-</style>
-<div class="collapsible">
-    <h2 class="collapsible-header" style="background-color: #65c294;">AI Core Performance Analysis</h2>
-    <div class="collapsible-content">
-        
-        
-        
-        
-        <a style="font-weight: bold" id="cube_analyze">Cube算子相关分析，参考如下: </a>
-        <br>
-        <table>
-            <tr>
-                <th class="typecol">类别</th>
-                <th>描述及建议</th>
-            </tr>
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            <tr>
-                <td>性能优化算子集合</td>
-                <td>
-                <table>
-                <tr><th>name</th><th>shape</th><th>dtype</th><th> 参考性能优化空间</th></tr>
-                    <tr><tr><td>aclnnAddmm_MatMulCommon_MatMulV2</td><td>16384,3584;896,3584;896</td><td>DT_BF16;DT_BF16;FLOAT</td><td>9.68%</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;4736,3584</td><td>DT_BF16;DT_BF16</td><td>9.51%</td></tr><tr><td>aclnnAddmm_MatMulCommon_MatMulV2</td><td>16384,3584;128,3584;128</td><td>DT_BF16;DT_BF16;FLOAT</td><td>4.76%</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;38016,3584</td><td>DT_BF16;DT_BF16</td><td>1.85%</td></tr></tr>
-                </table>
-                </td>
-            </tr>
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            <tr>
-                <td>不亲和算子集合</td>
-                <td>
-                <table>
-                <tr><th>name</th><th>shape</th><th>dtype</th><th> 不亲和类型为</th></tr>
-                    <tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;16384,3584</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;4736,3584</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;16384,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;3584,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;3584,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr></tr>
-                </table>
-                </td>
-            </tr>
-            
-        </table>
-        
-
-        
-        <a style="font-weight: bold" id="fa_analyze">FA算子相关分析，参考如下: </a>
-        <br>
-        <table>
-            <tr>
-                <th class="typecol">类别</th>
-                <th>描述及建议</th>
-            </tr>
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            <tr>
-                <td>bound算子集合</td>
-                <td>
-                <table>
-                <tr><th>name</th><th>shape</th><th>dtype</th><th> bound类型为</th></tr>
-                    <tr><tr><td>aclnnFlashAttentionScoreGrad_FlashAttentionScoreGrad_FlashAttentionScoreGrad</td><td>1,7,16384,128;1,7,16384,128;1,7,16384,128;1,7,16384,128;16384,16384;1,7,16384,8;1,7,16384,8;;1,7,16384,128;</td><td>DT_BF16;DT_BF16;DT_BF16;DT_BF16;BOOL;FLOAT;FLOAT;DT_BF16;DT_BF16;INT64</td><td>fixpipe</td></tr><tr><td>aclnnFlashAttentionScore_FlashAttentionScore_FlashAttentionScore</td><td>1,7,16384,128;1,7,16384,128;1,7,16384,128;;;;16384,16384;;;;;</td><td>None</td><td>vec</td></tr></tr>
-                </table>
-                </td>
-            </tr>
-            
-            
-            
-            
-        </table>
-        
-
-        
-    </div>
-</div>
-
-                
-          </div>
-      </div>
-      
-      <div class="collapsible">
-          <h2 class="collapsible-header">stage-4</h2>
-          <div class="collapsible-content">
-                <a style="font-weight: bold" id="timeline_api_instruction">Description: analysis for slow rank 12 in current stage</a>
-                <br><br>
-                
-                    <div class="collapsible">
-    <h2 class="collapsible-header" style="background-color: #65c294;">Operator Dynamic Shape Issues</h2>
-    <div class="collapsible-content">
-        
-        <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 12. </a>
-        
-        <table>
-            <tr>
-                <th>Description</th>
-                <th>Suggestion</th>
-            </tr>
-            <tr>
-                <td>找到所有是动态shape的算子</td>
-                <td>在python脚本入口加入以下代码关闭在线编译：<br>'torch_npu.npu.set_compile_mode(jit_compile=False) <br> torch_npu.npu.config.allow_internal_format = False' <br>详细信息请参考：<a href=https://www.hiascend.com/document/detail/zh/canncommercial/700/modeldevpt/ptmigr/AImpug_000060.html target='_blank'>链接</a></td>
-            </tr>
-        </table>
-    </div>
-</div>
-                
-                    <div class="collapsible">
-    <h2 class="collapsible-header" style="background-color: #65c294;">AICPU Issues</h2>
-    <div class="collapsible-content">
-        
-        <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 12. </a>
-        
-        <table>
-            <tr>
-                <th>Description</th>
-                <th>Suggestion</th>
-                <th>Elapsed Time(us)</th>
-                <th>Time Ratio</th>
-            </tr>
-            <tr>
-                <td>一些算子和任务执行时间超过了20us，比如：
-IndexPut</td>
-                <td>修改代码避免使用aicpu类算子</td>
-                <td>12328.43</td>
-                <td>0.0002</td>
-            </tr>
-        </table>
-        <div class="collapsible">
-            
-            <div class="collapsible-header">IndexPut</div>
-            <div class="collapsible-content">
-                <table>
-                    <tr>
-                        <th>Operator Type</th>
-                        <th>Counts</th>
-                        <th>Elapsed Time(us)</th>
-                    </tr>
-                    <tr>
-                        <td>IndexPut</td>
-                        <td>2</td>
-                        <td>12328.43</td>
-                    </tr>
-                </table>
-                <div class="collapsible">
-                    
-                    <div class="collapsible-header">
-                        <b>IndexPut</b> | Input DType:(INT64;INT64;INT64;INT64) | Output DType:(INT64) | Counts:2 | Elapsed Time(us):12328.43
-                    </div>
-                    <div class="collapsible-content">
-                        
-                        <div>
-                            
-                            <p>
-                                <b>Suggestion 1:</b> <u>请参考<a href='https://gitee.com/ascend/mstt/blob/master/profiler/msprof_analyze/advisor/doc/Samples%20of%20AI%20CPU%20Operator%20Replacement.md' target='_blank'>链接</a>修改源码，尝试用等价的算子替换indexput算子。</u>
-                            </p>
-                            
-                        </div>
-                        
-                        <div class="separator"></div>
-                        <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(84): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(249): cross_entropy_1d;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(334): dist_cross_entropy;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(360): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): <module></a>
-                    </div>
-                    
-                </div>
-            </div>
-            
-        </div>
-    </div>
-</div>
-                
-                    
-<style>
-    .typecol {
-        width: 30%;
-    }
-</style>
-<div class="collapsible">
-    <h2 class="collapsible-header" style="background-color: #65c294;">AI Core Performance Analysis</h2>
-    <div class="collapsible-content">
-        
-        
-        
-        
-        <a style="font-weight: bold" id="cube_analyze">Cube算子相关分析，参考如下: </a>
-        <br>
-        <table>
-            <tr>
-                <th class="typecol">类别</th>
-                <th>描述及建议</th>
-            </tr>
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            <tr>
-                <td>性能优化算子集合</td>
-                <td>
-                <table>
-                <tr><th>name</th><th>shape</th><th>dtype</th><th> 参考性能优化空间</th></tr>
-                    <tr><tr><td>aclnnAddmm_MatMulCommon_MatMulV2</td><td>16384,3584;896,3584;896</td><td>DT_BF16;DT_BF16;FLOAT</td><td>9.58%</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;4736,3584</td><td>DT_BF16;DT_BF16</td><td>9.44%</td></tr><tr><td>aclnnAddmm_MatMulCommon_MatMulV2</td><td>16384,3584;128,3584;128</td><td>DT_BF16;DT_BF16;FLOAT</td><td>4.6%</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;38016,3584</td><td>DT_BF16;DT_BF16</td><td>2.05%</td></tr></tr>
-                </table>
-                </td>
-            </tr>
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            <tr>
-                <td>不亲和算子集合</td>
-                <td>
-                <table>
-                <tr><th>name</th><th>shape</th><th>dtype</th><th> 不亲和类型为</th></tr>
-                    <tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;16384,3584</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;4736,3584</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;16384,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;3584,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;3584,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr></tr>
-                </table>
-                </td>
-            </tr>
-            
-        </table>
-        
-
-        
-        <a style="font-weight: bold" id="fa_analyze">FA算子相关分析，参考如下: </a>
-        <br>
-        <table>
-            <tr>
-                <th class="typecol">类别</th>
-                <th>描述及建议</th>
-            </tr>
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            <tr>
-                <td>bound算子集合</td>
-                <td>
-                <table>
-                <tr><th>name</th><th>shape</th><th>dtype</th><th> bound类型为</th></tr>
-                    <tr><tr><td>aclnnFlashAttentionScoreGrad_FlashAttentionScoreGrad_FlashAttentionScoreGrad</td><td>1,7,16384,128;1,7,16384,128;1,7,16384,128;1,7,16384,128;16384,16384;1,7,16384,8;1,7,16384,8;;1,7,16384,128;</td><td>DT_BF16;DT_BF16;DT_BF16;DT_BF16;BOOL;FLOAT;FLOAT;DT_BF16;DT_BF16;INT64</td><td>fixpipe</td></tr><tr><td>aclnnFlashAttentionScore_FlashAttentionScore_FlashAttentionScore</td><td>1,7,16384,128;1,7,16384,128;1,7,16384,128;;;;16384,16384;;;;;</td><td>None</td><td>vec</td></tr></tr>
-                </table>
-                </td>
-            </tr>
-            
-            
-            
-            
-        </table>
-        
-
-        
-    </div>
-</div>
-
-                
-          </div>
-      </div>
-      
-      <div class="collapsible">
-          <h2 class="collapsible-header">stage-5</h2>
-          <div class="collapsible-content">
-                <a style="font-weight: bold" id="timeline_api_instruction">Description: analysis for slow rank 13 in current stage</a>
-                <br><br>
-                
-                    <div class="collapsible">
-    <h2 class="collapsible-header" style="background-color: #65c294;">Operator Dynamic Shape Issues</h2>
-    <div class="collapsible-content">
-        
-        <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 13. </a>
-        
-        <table>
-            <tr>
-                <th>Description</th>
-                <th>Suggestion</th>
-            </tr>
-            <tr>
-                <td>找到所有是动态shape的算子</td>
-                <td>在python脚本入口加入以下代码关闭在线编译：<br>'torch_npu.npu.set_compile_mode(jit_compile=False) <br> torch_npu.npu.config.allow_internal_format = False' <br>详细信息请参考：<a href=https://www.hiascend.com/document/detail/zh/canncommercial/700/modeldevpt/ptmigr/AImpug_000060.html target='_blank'>链接</a></td>
-            </tr>
-        </table>
-    </div>
-</div>
-                
-                    <div class="collapsible">
-    <h2 class="collapsible-header" style="background-color: #65c294;">AICPU Issues</h2>
-    <div class="collapsible-content">
-        
-        <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 13. </a>
-        
-        <table>
-            <tr>
-                <th>Description</th>
-                <th>Suggestion</th>
-                <th>Elapsed Time(us)</th>
-                <th>Time Ratio</th>
-            </tr>
-            <tr>
-                <td>一些算子和任务执行时间超过了20us，比如：
-IndexPut</td>
-                <td>修改代码避免使用aicpu类算子</td>
-                <td>12306.05</td>
-                <td>0.0031</td>
-            </tr>
-        </table>
-        <div class="collapsible">
-            
-            <div class="collapsible-header">IndexPut</div>
-            <div class="collapsible-content">
-                <table>
-                    <tr>
-                        <th>Operator Type</th>
-                        <th>Counts</th>
-                        <th>Elapsed Time(us)</th>
-                    </tr>
-                    <tr>
-                        <td>IndexPut</td>
-                        <td>2</td>
-                        <td>12306.05</td>
-                    </tr>
-                </table>
-                <div class="collapsible">
-                    
-                    <div class="collapsible-header">
-                        <b>IndexPut</b> | Input DType:(INT64;INT64;INT64;INT64) | Output DType:(INT64) | Counts:2 | Elapsed Time(us):12306.05
-                    </div>
-                    <div class="collapsible-content">
-                        
-                        <div>
-                            
-                            <p>
-                                <b>Suggestion 1:</b> <u>请参考<a href='https://gitee.com/ascend/mstt/blob/master/profiler/msprof_analyze/advisor/doc/Samples%20of%20AI%20CPU%20Operator%20Replacement.md' target='_blank'>链接</a>修改源码，尝试用等价的算子替换indexput算子。</u>
-                            </p>
-                            
-                        </div>
-                        
-                        <div class="separator"></div>
-                        <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(84): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(249): cross_entropy_1d;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(334): dist_cross_entropy;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(360): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): <module></a>
-                    </div>
-                    
-                </div>
-            </div>
-            
-        </div>
-    </div>
-</div>
-                
-                    
-<style>
-    .typecol {
-        width: 30%;
-    }
-</style>
-<div class="collapsible">
-    <h2 class="collapsible-header" style="background-color: #65c294;">AI Core Performance Analysis</h2>
-    <div class="collapsible-content">
-        
-        
-        
-        
-        <a style="font-weight: bold" id="cube_analyze">Cube算子相关分析，参考如下: </a>
-        <br>
-        <table>
-            <tr>
-                <th class="typecol">类别</th>
-                <th>描述及建议</th>
-            </tr>
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            <tr>
-                <td>性能优化算子集合</td>
-                <td>
-                <table>
-                <tr><th>name</th><th>shape</th><th>dtype</th><th> 参考性能优化空间</th></tr>
-                    <tr><tr><td>aclnnAddmm_MatMulCommon_MatMulV2</td><td>16384,3584;896,3584;896</td><td>DT_BF16;DT_BF16;FLOAT</td><td>9.61%</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;4736,3584</td><td>DT_BF16;DT_BF16</td><td>9.45%</td></tr><tr><td>aclnnAddmm_MatMulCommon_MatMulV2</td><td>16384,3584;128,3584;128</td><td>DT_BF16;DT_BF16;FLOAT</td><td>4.73%</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;38016,3584</td><td>DT_BF16;DT_BF16</td><td>1.85%</td></tr></tr>
-                </table>
-                </td>
-            </tr>
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            <tr>
-                <td>不亲和算子集合</td>
-                <td>
-                <table>
-                <tr><th>name</th><th>shape</th><th>dtype</th><th> 不亲和类型为</th></tr>
-                    <tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;16384,3584</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;4736,3584</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;16384,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;3584,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;3584,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr></tr>
-                </table>
-                </td>
-            </tr>
-            
-        </table>
-        
-
-        
-        <a style="font-weight: bold" id="fa_analyze">FA算子相关分析，参考如下: </a>
-        <br>
-        <table>
-            <tr>
-                <th class="typecol">类别</th>
-                <th>描述及建议</th>
-            </tr>
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            <tr>
-                <td>bound算子集合</td>
-                <td>
-                <table>
-                <tr><th>name</th><th>shape</th><th>dtype</th><th> bound类型为</th></tr>
-                    <tr><tr><td>aclnnFlashAttentionScoreGrad_FlashAttentionScoreGrad_FlashAttentionScoreGrad</td><td>1,7,16384,128;1,7,16384,128;1,7,16384,128;1,7,16384,128;16384,16384;1,7,16384,8;1,7,16384,8;;1,7,16384,128;</td><td>DT_BF16;DT_BF16;DT_BF16;DT_BF16;BOOL;FLOAT;FLOAT;DT_BF16;DT_BF16;INT64</td><td>fixpipe</td></tr><tr><td>aclnnFlashAttentionScore_FlashAttentionScore_FlashAttentionScore</td><td>1,7,16384,128;1,7,16384,128;1,7,16384,128;;;;16384,16384;;;;;</td><td>None</td><td>vec</td></tr></tr>
-                </table>
-                </td>
-            </tr>
-            
-            
-            
-            
-        </table>
-        
-
-        
-        <a style="font-weight: bold" id="vector_analyze">Vector算子相关分析，参考如下: </a>
-        <br>
-        <table>
-            <tr>
-                <th class="typecol">类别</th>
-                <th>描述及建议</th>
-            </tr>
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            <tr>
-                <td>性能优化算子集合</td>
-                <td>
-                <table>
-                <tr><th>name</th><th>shape</th><th>dtype</th><th> 参考性能优化空间</th></tr>
-                    <tr><tr><td>aclnnInplaceCopy_TensorMoveAiCore_TensorMove</td><td>3584,4736</td><td>DT_BF16</td><td>70.0%</td></tr><tr><td>aclnnInplaceCopy_TensorMoveAiCore_TensorMove</td><td>3584,896</td><td>DT_BF16</td><td>69.89%</td></tr><tr><td>aclnnInplaceCopy_TensorMoveAiCore_TensorMove</td><td>896,3584</td><td>DT_BF16</td><td>69.89%</td></tr><tr><td>aclnnInplaceCopy_TensorMoveAiCore_TensorMove</td><td>1,1,1,16384,128</td><td>DT_BF16</td><td>69.82%</td></tr><tr><td>aclnnInplaceCopy_TensorMoveAiCore_TensorMove</td><td>1,1,16384,128</td><td>DT_BF16</td><td>69.8%</td></tr></tr>
-                </table>
-                </td>
-            </tr>
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            <tr>
-                <td>bound算子集合</td>
-                <td>
-                <table>
-                <tr><th>name</th><th>shape</th><th>dtype</th><th> bound类型为</th></tr>
-                    <tr><tr><td>aclnnInplaceCopy_TensorMoveAiCore_TensorMove</td><td>1,4096,3584</td><td>DT_BF16</td><td>vec_mte2_mte3</td></tr><tr><td>aclnnMul_MulAiCore_Mul</td><td>1,16384,4736;1,16384,4736</td><td>DT_BF16;DT_BF16</td><td>vec_mte2_mte3</td></tr><tr><td>aclnnMul_MulAiCore_Mul</td><td>1,4096,3584;1,4096,3584</td><td>FLOAT;FLOAT</td><td>vec_mte2_mte3</td></tr><tr><td>aclnnInplaceMul_CastAiCore_Cast</td><td>16383,38016</td><td>FLOAT</td><td>vec_mte2_mte3</td></tr><tr><td>aclnnInplaceMuls_MulAiCore_Mul</td><td>8486912;</td><td>FLOAT;FLOAT</td><td>vec_mte2_mte3</td></tr></tr>
-                </table>
-                </td>
-            </tr>
-            
-        </table>
-        
-    </div>
-</div>
-
-                
-          </div>
-      </div>
-      
-      <div class="collapsible">
-          <h2 class="collapsible-header">stage-6</h2>
-          <div class="collapsible-content">
-                <a style="font-weight: bold" id="timeline_api_instruction">Description: analysis for slow rank 14 in current stage</a>
-                <br><br>
-                
-                    <div class="collapsible">
-    <h2 class="collapsible-header" style="background-color: #65c294;">Operator Dynamic Shape Issues</h2>
-    <div class="collapsible-content">
-        
-        <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 14. </a>
-        
-        <table>
-            <tr>
-                <th>Description</th>
-                <th>Suggestion</th>
-            </tr>
-            <tr>
-                <td>找到所有是动态shape的算子</td>
-                <td>在python脚本入口加入以下代码关闭在线编译：<br>'torch_npu.npu.set_compile_mode(jit_compile=False) <br> torch_npu.npu.config.allow_internal_format = False' <br>详细信息请参考：<a href=https://www.hiascend.com/document/detail/zh/canncommercial/700/modeldevpt/ptmigr/AImpug_000060.html target='_blank'>链接</a></td>
-            </tr>
-        </table>
-    </div>
-</div>
-                
-                    <div class="collapsible">
-    <h2 class="collapsible-header" style="background-color: #65c294;">AICPU Issues</h2>
-    <div class="collapsible-content">
-        
-        <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 14. </a>
-        
-        <table>
-            <tr>
-                <th>Description</th>
-                <th>Suggestion</th>
-                <th>Elapsed Time(us)</th>
-                <th>Time Ratio</th>
-            </tr>
-            <tr>
-                <td>一些算子和任务执行时间超过了20us，比如：
-IndexPut</td>
-                <td>修改代码避免使用aicpu类算子</td>
-                <td>12324.21</td>
-                <td>0.0003</td>
-            </tr>
-        </table>
-        <div class="collapsible">
-            
-            <div class="collapsible-header">IndexPut</div>
-            <div class="collapsible-content">
-                <table>
-                    <tr>
-                        <th>Operator Type</th>
-                        <th>Counts</th>
-                        <th>Elapsed Time(us)</th>
-                    </tr>
-                    <tr>
-                        <td>IndexPut</td>
-                        <td>2</td>
-                        <td>12324.21</td>
-                    </tr>
-                </table>
-                <div class="collapsible">
-                    
-                    <div class="collapsible-header">
-                        <b>IndexPut</b> | Input DType:(INT64;INT64;INT64;INT64) | Output DType:(INT64) | Counts:2 | Elapsed Time(us):12324.21
-                    </div>
-                    <div class="collapsible-content">
-                        
-                        <div>
-                            
-                            <p>
-                                <b>Suggestion 1:</b> <u>请参考<a href='https://gitee.com/ascend/mstt/blob/master/profiler/msprof_analyze/advisor/doc/Samples%20of%20AI%20CPU%20Operator%20Replacement.md' target='_blank'>链接</a>修改源码，尝试用等价的算子替换indexput算子。</u>
-                            </p>
-                            
-                        </div>
-                        
-                        <div class="separator"></div>
-                        <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(84): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(249): cross_entropy_1d;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(334): dist_cross_entropy;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(360): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): <module></a>
-                    </div>
-                    
-                </div>
-            </div>
-            
-        </div>
-    </div>
-</div>
-                
-                    
-<style>
-    .typecol {
-        width: 30%;
-    }
-</style>
-<div class="collapsible">
-    <h2 class="collapsible-header" style="background-color: #65c294;">AI Core Performance Analysis</h2>
-    <div class="collapsible-content">
-        
-        
-        
-        
-        <a style="font-weight: bold" id="cube_analyze">Cube算子相关分析，参考如下: </a>
-        <br>
-        <table>
-            <tr>
-                <th class="typecol">类别</th>
-                <th>描述及建议</th>
-            </tr>
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            <tr>
-                <td>性能优化算子集合</td>
-                <td>
-                <table>
-                <tr><th>name</th><th>shape</th><th>dtype</th><th> 参考性能优化空间</th></tr>
-                    <tr><tr><td>aclnnAddmm_MatMulCommon_MatMulV2</td><td>16384,3584;896,3584;896</td><td>DT_BF16;DT_BF16;FLOAT</td><td>9.64%</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;4736,3584</td><td>DT_BF16;DT_BF16</td><td>9.49%</td></tr><tr><td>aclnnAddmm_MatMulCommon_MatMulV2</td><td>16384,3584;128,3584;128</td><td>DT_BF16;DT_BF16;FLOAT</td><td>4.86%</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;38016,3584</td><td>DT_BF16;DT_BF16</td><td>1.8%</td></tr></tr>
-                </table>
-                </td>
-            </tr>
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            <tr>
-                <td>不亲和算子集合</td>
-                <td>
-                <table>
-                <tr><th>name</th><th>shape</th><th>dtype</th><th> 不亲和类型为</th></tr>
-                    <tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;16384,3584</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;4736,3584</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;16384,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;3584,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;3584,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr></tr>
-                </table>
-                </td>
-            </tr>
-            
-        </table>
-        
-
-        
-        <a style="font-weight: bold" id="fa_analyze">FA算子相关分析，参考如下: </a>
-        <br>
-        <table>
-            <tr>
-                <th class="typecol">类别</th>
-                <th>描述及建议</th>
-            </tr>
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            <tr>
-                <td>bound算子集合</td>
-                <td>
-                <table>
-                <tr><th>name</th><th>shape</th><th>dtype</th><th> bound类型为</th></tr>
-                    <tr><tr><td>aclnnFlashAttentionScoreGrad_FlashAttentionScoreGrad_FlashAttentionScoreGrad</td><td>1,7,16384,128;1,7,16384,128;1,7,16384,128;1,7,16384,128;16384,16384;1,7,16384,8;1,7,16384,8;;1,7,16384,128;</td><td>DT_BF16;DT_BF16;DT_BF16;DT_BF16;BOOL;FLOAT;FLOAT;DT_BF16;DT_BF16;INT64</td><td>fixpipe</td></tr><tr><td>aclnnFlashAttentionScore_FlashAttentionScore_FlashAttentionScore</td><td>1,7,16384,128;1,7,16384,128;1,7,16384,128;;;;16384,16384;;;;;</td><td>None</td><td>vec</td></tr></tr>
-                </table>
-                </td>
-            </tr>
-            
-            
-            
-            
-        </table>
-        
-
-        
-    </div>
-</div>
-
-                
-          </div>
-      </div>
-      
-      <div class="collapsible">
-          <h2 class="collapsible-header">stage-7</h2>
-          <div class="collapsible-content">
-                <a style="font-weight: bold" id="timeline_api_instruction">Description: analysis for slow rank 15 in current stage</a>
-                <br><br>
-                
-                    <div class="collapsible">
-    <h2 class="collapsible-header" style="background-color: #65c294;">Operator Dynamic Shape Issues</h2>
-    <div class="collapsible-content">
-        
-        <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 15. </a>
-        
-        <table>
-            <tr>
-                <th>Description</th>
-                <th>Suggestion</th>
-            </tr>
-            <tr>
-                <td>找到所有是动态shape的算子</td>
-                <td>在python脚本入口加入以下代码关闭在线编译：<br>'torch_npu.npu.set_compile_mode(jit_compile=False) <br> torch_npu.npu.config.allow_internal_format = False' <br>详细信息请参考：<a href=https://www.hiascend.com/document/detail/zh/canncommercial/700/modeldevpt/ptmigr/AImpug_000060.html target='_blank'>链接</a></td>
-            </tr>
-        </table>
-    </div>
-</div>
-                
-                    <div class="collapsible">
-    <h2 class="collapsible-header" style="background-color: #65c294;">AICPU Issues</h2>
-    <div class="collapsible-content">
-        
-        <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 15. </a>
-        
-        <table>
-            <tr>
-                <th>Description</th>
-                <th>Suggestion</th>
-                <th>Elapsed Time(us)</th>
-                <th>Time Ratio</th>
-            </tr>
-            <tr>
-                <td>一些算子和任务执行时间超过了20us，比如：
-IndexPut</td>
-                <td>修改代码避免使用aicpu类算子</td>
-                <td>12297.57</td>
-                <td>0.0002</td>
-            </tr>
-        </table>
-        <div class="collapsible">
-            
-            <div class="collapsible-header">IndexPut</div>
-            <div class="collapsible-content">
-                <table>
-                    <tr>
-                        <th>Operator Type</th>
-                        <th>Counts</th>
-                        <th>Elapsed Time(us)</th>
-                    </tr>
-                    <tr>
-                        <td>IndexPut</td>
-                        <td>2</td>
-                        <td>12297.57</td>
-                    </tr>
-                </table>
-                <div class="collapsible">
-                    
-                    <div class="collapsible-header">
-                        <b>IndexPut</b> | Input DType:(INT64;INT64;INT64;INT64) | Output DType:(INT64) | Counts:1 | Elapsed Time(us):11999.58
-                    </div>
-                    <div class="collapsible-content">
-                        
-                        <div>
-                            
-                            <p>
-                                <b>Suggestion 1:</b> <u>请参考<a href='https://gitee.com/ascend/mstt/blob/master/profiler/msprof_analyze/advisor/doc/Samples%20of%20AI%20CPU%20Operator%20Replacement.md' target='_blank'>链接</a>修改源码，尝试用等价的算子替换indexput算子。</u>
-                            </p>
-                            
-                        </div>
-                        
-                        <div class="separator"></div>
-                        <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(85): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(249): cross_entropy_1d;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(334): dist_cross_entropy;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(360): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): <module></a>
-                    </div>
-                    
-                    <div class="collapsible-header">
-                        <b>IndexPut</b> | Input DType:(INT64;INT64;INT64;INT64) | Output DType:(INT64) | Counts:1 | Elapsed Time(us):297.99
-                    </div>
-                    <div class="collapsible-content">
-                        
-                        <div>
-                            
-                            <p>
-                                <b>Suggestion 1:</b> <u>请参考<a href='https://gitee.com/ascend/mstt/blob/master/profiler/msprof_analyze/advisor/doc/Samples%20of%20AI%20CPU%20Operator%20Replacement.md' target='_blank'>链接</a>修改源码，尝试用等价的算子替换indexput算子。</u>
-                            </p>
-                            
-                        </div>
-                        
-                        <div class="separator"></div>
-                        <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(89): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(249): cross_entropy_1d;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(334): dist_cross_entropy;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(360): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): <module></a>
-                    </div>
-                    
-                </div>
-            </div>
-            
-        </div>
-    </div>
-</div>
-                
-                    
-<style>
-    .typecol {
-        width: 30%;
-    }
-</style>
-<div class="collapsible">
-    <h2 class="collapsible-header" style="background-color: #65c294;">AI Core Performance Analysis</h2>
-    <div class="collapsible-content">
-        
-        
-        
-        
-        <a style="font-weight: bold" id="cube_analyze">Cube算子相关分析，参考如下: </a>
-        <br>
-        <table>
-            <tr>
-                <th class="typecol">类别</th>
-                <th>描述及建议</th>
-            </tr>
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            <tr>
-                <td>性能优化算子集合</td>
-                <td>
-                <table>
-                <tr><th>name</th><th>shape</th><th>dtype</th><th> 参考性能优化空间</th></tr>
-                    <tr><tr><td>aclnnAddmm_MatMulCommon_MatMulV2</td><td>16384,3584;896,3584;896</td><td>DT_BF16;DT_BF16;FLOAT</td><td>9.55%</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;4736,3584</td><td>DT_BF16;DT_BF16</td><td>9.5%</td></tr><tr><td>aclnnAddmm_MatMulCommon_MatMulV2</td><td>16384,3584;128,3584;128</td><td>DT_BF16;DT_BF16;FLOAT</td><td>4.62%</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;38016,3584</td><td>DT_BF16;DT_BF16</td><td>1.75%</td></tr></tr>
-                </table>
-                </td>
-            </tr>
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            <tr>
-                <td>不亲和算子集合</td>
-                <td>
-                <table>
-                <tr><th>name</th><th>shape</th><th>dtype</th><th> 不亲和类型为</th></tr>
-                    <tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;16384,3584</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;4736,3584</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;16384,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,4736;3584,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr><tr><td>aclnnMatmul_MatMulV3Common_MatMulV3</td><td>16384,3584;3584,4736</td><td>DT_BF16;DT_BF16</td><td>内轴无法被256整除</td></tr></tr>
-                </table>
-                </td>
-            </tr>
-            
-        </table>
-        
-
-        
-        <a style="font-weight: bold" id="fa_analyze">FA算子相关分析，参考如下: </a>
-        <br>
-        <table>
-            <tr>
-                <th class="typecol">类别</th>
-                <th>描述及建议</th>
-            </tr>
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            
-            <tr>
-                <td>bound算子集合</td>
-                <td>
-                <table>
-                <tr><th>name</th><th>shape</th><th>dtype</th><th> bound类型为</th></tr>
-                    <tr><tr><td>aclnnFlashAttentionScoreGrad_FlashAttentionScoreGrad_FlashAttentionScoreGrad</td><td>1,7,16384,128;1,7,16384,128;1,7,16384,128;1,7,16384,128;16384,16384;1,7,16384,8;1,7,16384,8;;1,7,16384,128;</td><td>DT_BF16;DT_BF16;DT_BF16;DT_BF16;BOOL;FLOAT;FLOAT;DT_BF16;DT_BF16;INT64</td><td>fixpipe</td></tr><tr><td>aclnnFlashAttentionScore_FlashAttentionScore_FlashAttentionScore</td><td>1,7,16384,128;1,7,16384,128;1,7,16384,128;;;;16384,16384;;;;;</td><td>None</td><td>vec</td></tr></tr>
-                </table>
-                </td>
-            </tr>
-            
-            
-            
-            
-        </table>
-        
-
-        
-    </div>
-</div>
-
-                
-          </div>
-      </div>
-      
-    </div>
-</div>
-
-            
-          </div>
-        </div>
-      
-        <div class="collapsible">
-          <h2 class="collapsible-header">schedule</h2>
-          <div class="collapsible-content">
-            
-            
-<div class="collapsible">
-    <h2 class="collapsible-header" style="background-color: #fcaf17;">Conjectured GC Analysis</h2>
-    <div class="collapsible-content">
-      
-      <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 6. </a>
-      
-        <a style="font-weight: bold" id="gc_description">在34079031.859us的空闲时间内几乎没有主机任务，这可能是由Python的异常GC引起的</a>
-        <table>
-        <tr>
-            <th>Suggestions</th>
-        </tr>
-        
-            
-            
-                <tr>
-                    <td>1. 实现高效的Python内存管理；不使用时及时释放内存，避免长期占用；避免对象之间的循环引用。</td>
-                </tr>
-            
-        
-            
-            
-                <tr>
-                    <td>2. 使用 gc.set_threshold() 来调整垃圾回收阈值可以延迟垃圾收集，但这是一个临时解决方案。</td>
-                </tr>
-            
-        
-            
-            
-                <tr>
-                    <td>3. 使用 gc.disable() 来关闭GC，注意这是个临时解决方案。</td>
-                </tr>
-            
-        
-        </table>
-        
-        <a style="font-weight: bold" id="detail_description">The details of top 2 garbage collection events are as follows:</a>
-        <br><br>
-            <table>
-                <tr>
-                
-                    <th> timestamp </th>
-                
-                    <th> duration(us) </th>
-                
-                </tr>
-
-                
-                <tr>
-                    
-                    <td>1747647483551821.8</td>
-                    
-                    <td>33818722.418</td>
-                    
-                </tr>
-                
-                <tr>
-                    
-                    <td>1747647606194246.2</td>
-                    
-                    <td>260309.441</td>
-                    
-                </tr>
-                
-            </table>
-        
-    </div>
-</div>
-            
-            
-<div class="collapsible">
-  <h2 class="collapsible-header" style="background-color: #65c294;">Affinity API Issues</h2>
-  <div class="collapsible-content">
-      
-      <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 6. </a>
-      
-      <a style="font-weight: bold" id="timeline_api_instruction">The analysis results of following affinity APIs are based on runtime env
-          <span style="font-weight:bold;">cann-8.0.0</span>
-          and
-          <span style="font-weight:bold;">pytorch-pytorch</span>
-      </a>
-      <div class="collapsible">
-
-        
-
-      
-
-        
-
-        <div class="collapsible-header">torch_npu.npu_rms_norm</div>
-        <div class="collapsible-content">
-          <div>
-            <a style="font-weight: bold" id="timeline_api_instruction">Suggestion: </a>
-            <a>Detailed information of affinity apis please refer to</a>
-            <a href="https://gitee.com/ascend/mstt/blob/master/profiler/msprof_analyze/advisor/doc/Samples%20of%20Fused%20Operator%20API%20Replacement.md#torch_npu.npu_rms_norm" target="_blank">API instructions</a>
-          </div>
-          <div class="collapsible">
-          
-              <div class="collapsible-header">No.1 code stack, called 28 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(79): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(620): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.2 code stack, called 28 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(79): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(637): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.3 code stack, called 8 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3341): all_gather;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(223): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(638): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.4 code stack, called 4 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3341): all_gather;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(516): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.5 code stack, called 4 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3341): all_gather;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(518): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.6 code stack, called 3 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3341): all_gather;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(517): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.7 code stack, called 2 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3757): reduce_scatter;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(751): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(223): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(638): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.8 code stack, called 2 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/_ops.py(1116): __call__;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(582): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.9 code stack, called 2 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(80): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(620): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.10 code stack, called 2 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(158): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/_contextlib.py(116): decorate_context;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(540): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.11 code stack, called 2 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3757): reduce_scatter;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(751): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(618): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.12 code stack, called 2 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(79): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(250): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.13 code stack, called 2 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3757): reduce_scatter;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(598): backward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(307): apply</a>
-              </div>
-          
-              <div class="collapsible-header">No.14 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/data/_utils/collate.py(272): collate_tensor_fn;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/data/_utils/collate.py(155): collate;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/data/_utils/collate.py(172): <dictcomp>;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/data/_utils/collate.py(171): collate;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/data/_utils/collate.py(398): default_collate;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/data/_utils/fetch.py(55): fetch;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/data/dataloader.py(757): _next_data;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/data/dataloader.py(701): __next__;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch_npu/profiler/_add_mstx_patch.py(28): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(74): load_batch;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(373): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.15 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(517): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.16 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(207): apply_rotary_pos_emb;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(541): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.17 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(739): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(618): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.18 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(80): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(637): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.19 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(748): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(223): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(638): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.20 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(166): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/_contextlib.py(116): decorate_context;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(540): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.21 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3762): reduce_scatter;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(751): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(618): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.22 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1218): <listcomp>;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1218): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(517): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.23 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(235): repeat_kv;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(573): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.24 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(564): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(517): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.25 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(180): rotate_half;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(207): apply_rotary_pos_emb;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(541): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.26 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(748): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(618): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.27 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(172): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/_contextlib.py(116): decorate_context;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(540): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.28 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(566): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(223): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(638): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.29 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(739): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(223): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(638): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.30 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(236): repeat_kv;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(574): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.31 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(223): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(638): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.32 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(223): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(638): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.33 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(526): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.34 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(179): rotate_half;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(207): apply_rotary_pos_emb;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(541): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.35 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3341): all_gather;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1073): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1359): gather_forward_split_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1390): gather_sp_output;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(253): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.36 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(84): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(249): cross_entropy_1d;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/loss.py(334): dist_cross_entropy;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(360): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-          </div>
-        </div>
-        
-
-      
-
-        
-
-        <div class="collapsible-header">torch_npu.npu_confusion_transpose</div>
-        <div class="collapsible-content">
-          <div>
-            <a style="font-weight: bold" id="timeline_api_instruction">Suggestion: </a>
-            <a>Detailed information of affinity apis please refer to</a>
-            <a href="https://gitee.com/ascend/mstt/blob/master/profiler/msprof_analyze/advisor/doc/Samples%20of%20Fused%20Operator%20API%20Replacement.md#torch_npu.npu_confusion_transpose" target="_blank">API instructions</a>
-          </div>
-          <div class="collapsible">
-          
-              <div class="collapsible-header">No.1 code stack, called 32 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3757): reduce_scatter;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(598): backward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(307): apply</a>
-              </div>
-          
-              <div class="collapsible-header">No.2 code stack, called 9 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3341): all_gather;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(766): backward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(307): apply</a>
-              </div>
-          
-              <div class="collapsible-header">No.3 code stack, called 7 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(636): backward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(307): apply</a>
-              </div>
-          
-              <div class="collapsible-header">No.4 code stack, called 6 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3341): all_gather;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(223): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(638): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.5 code stack, called 5 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3341): all_gather;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(516): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.6 code stack, called 5 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(595): backward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(307): apply</a>
-              </div>
-          
-              <div class="collapsible-header">No.7 code stack, called 4 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(585): backward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(307): apply</a>
-              </div>
-          
-              <div class="collapsible-header">No.8 code stack, called 4 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(590): backward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(307): apply</a>
-              </div>
-          
-              <div class="collapsible-header">No.9 code stack, called 3 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3341): all_gather;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(518): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.10 code stack, called 3 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3341): all_gather;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(517): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.11 code stack, called 3 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(580): backward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(307): apply</a>
-              </div>
-          
-              <div class="collapsible-header">No.12 code stack, called 3 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(589): backward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(307): apply</a>
-              </div>
-          
-              <div class="collapsible-header">No.13 code stack, called 2 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(235): repeat_kv;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(574): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.14 code stack, called 2 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1218): <listcomp>;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1218): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(518): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.15 code stack, called 2 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(748): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(618): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.16 code stack, called 2 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3757): reduce_scatter;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(751): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(223): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(638): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.17 code stack, called 2 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(80): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(637): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.18 code stack, called 2 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(597): backward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(307): apply</a>
-              </div>
-          
-              <div class="collapsible-header">No.19 code stack, called 2 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(638): backward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(307): apply</a>
-              </div>
-          
-              <div class="collapsible-header">No.20 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(528): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.21 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(157): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/_contextlib.py(116): decorate_context;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(540): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.22 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(79): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(637): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.23 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1218): <listcomp>;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1218): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(516): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.24 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(163): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/_contextlib.py(116): decorate_context;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(540): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.25 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(205): apply_rotary_pos_emb;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(541): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.26 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(206): apply_rotary_pos_emb;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(541): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.27 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(566): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(223): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(638): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.28 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/functional.py(2380): silu;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/activation.py(432): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(223): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(638): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.29 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(179): rotate_half;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(207): apply_rotary_pos_emb;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(541): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.30 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/_ops.py(1116): __call__;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(582): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.31 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(739): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(223): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(638): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.32 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(518): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.33 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3757): reduce_scatter;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(751): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(618): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.34 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(79): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(620): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-          </div>
-        </div>
-        
-
-      
-
-        
-
-        <div class="collapsible-header">torch_npu.npu_rotary_mul</div>
-        <div class="collapsible-content">
-          <div>
-            <a style="font-weight: bold" id="timeline_api_instruction">Suggestion: </a>
-            <a>Detailed information of affinity apis please refer to</a>
-            <a href="https://gitee.com/ascend/mstt/blob/master/profiler/msprof_analyze/advisor/doc/Samples%20of%20Fused%20Operator%20API%20Replacement.md#torch_npu.npu_rotary_mul" target="_blank">API instructions</a>
-          </div>
-          <div class="collapsible">
-          
-              <div class="collapsible-header">No.1 code stack, called 28 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(179): rotate_half;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(206): apply_rotary_pos_emb;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(541): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.2 code stack, called 28 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(179): rotate_half;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(207): apply_rotary_pos_emb;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(541): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.3 code stack, called 10 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3341): all_gather;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(223): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(638): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.4 code stack, called 5 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3341): all_gather;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(516): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.5 code stack, called 4 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3341): all_gather;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(518): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.6 code stack, called 2 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(166): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/_contextlib.py(116): decorate_context;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(540): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.7 code stack, called 2 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(235): repeat_kv;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(573): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.8 code stack, called 2 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3757): reduce_scatter;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(751): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(223): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(638): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.9 code stack, called 2 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(80): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(637): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.10 code stack, called 2 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(157): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/_contextlib.py(116): decorate_context;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(540): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.11 code stack, called 2 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3341): all_gather;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(517): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.12 code stack, called 2 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/_ops.py(1116): __call__;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(582): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.13 code stack, called 2 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3341): all_gather;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(766): backward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(307): apply</a>
-              </div>
-          
-              <div class="collapsible-header">No.14 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1218): <listcomp>;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1218): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(516): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.15 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(163): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/_contextlib.py(116): decorate_context;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(540): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.16 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(564): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(516): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.17 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1218): <listcomp>;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1218): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(517): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.18 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1222): _gather;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(561): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(517): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.19 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(564): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1323): linear_gather_forward_reducescatter_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(345): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(517): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.20 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(739): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(618): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.21 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(748): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(618): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.22 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(170): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/utils/_contextlib.py(116): decorate_context;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(540): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.23 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(206): apply_rotary_pos_emb;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(541): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.24 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(178): rotate_half;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(207): apply_rotary_pos_emb;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(541): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.25 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(739): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(223): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(638): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.26 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(748): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(223): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(638): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.27 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/distributed_c10d.py(3757): reduce_scatter;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/distributed/c10d_logger.py(83): wrapper;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(751): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(618): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.28 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(575): apply;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(1339): linear_reducescatter_forward_gather_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/linear.py(578): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(618): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(623): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(233): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.29 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(80): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(250): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.30 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/usr/local/python3.10/lib/python3.10/site-packages/transformers/models/qwen2/modeling_qwen2.py(81): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(250): qwen2_model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/shardformer/modeling/qwen2.py(334): qwen2_for_causal_lm_forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/interface/model.py(30): forward;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(221): forward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1747): _call_impl;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/nn/modules/module.py(1736): _wrapped_call_impl;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/_utils.py(126): model_forward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(270): forward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(406): run_forward_backward;<br/>/home/duanjunwen/ColossalAI/colossalai/pipeline/schedule/one_f_one_b.py(472): forward_backward_step;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/plugin/hybrid_parallel_plugin.py(1409): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/colossalai/booster/booster.py(221): execute_pipeline;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(134): test_hybrid_qwen;<br/>/home/duanjunwen/ColossalAI/applications/ColossalChat/tests/test_hybrid.py(181): &lt;module></a>
-              </div>
-          
-              <div class="collapsible-header">No.31 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(774): backward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(307): apply</a>
-              </div>
-          
-              <div class="collapsible-header">No.32 code stack, called 1 times</div>
-              <div class="collapsible-content">
-                <a id="timeline_api_stack">/home/duanjunwen/ColossalAI/colossalai/shardformer/layer/_operation.py(811): backward;<br/>/usr/local/python3.10/lib/python3.10/site-packages/torch/autograd/function.py(307): apply</a>
-              </div>
-          
-          </div>
-        </div>
-        
-
-      
-
-      </div>
-
-  </div>
-</div>
-
-            
-            
-            
-          </div>
-        </div>
-      
-        <div class="collapsible">
-          <h2 class="collapsible-header">dataloader</h2>
-          <div class="collapsible-content">
-            
-            <div class="collapsible">
-  <h2 class="collapsible-header" style="background-color: #B5495B;">Slow Dataloader Issues</h2>
-  <div class="collapsible-content">
-  
-  <a style="font-weight: bold" id="timeline_api_instruction">Analysis of rank 6. </a>
-  
-    <a style="font-weight: bold" id="timeline_api_instruction">dataloader加载数据速度较慢，一次迭代花费138000.9us，通常小于10000us。</a>
-    <table>
-        <tr>
-            <th>Suggestions</th>
-        </tr>
-
-        
-            <tr>
-                <td>1. 请检查数据目录的磁盘I/O。如果您正在ModelArts中训练模型，请将数据移动到“/cache”或装载更高效的云磁盘以获得更好的I/O。</td>
-            </tr>
-        
-            <tr>
-                <td>2. 尝试调整dataloader参数'num_workers'。</td>
-            </tr>
-        
-    </table>
-
-  </div>
-</div>
-            
-          </div>
-        </div>
-      
-      </div>
-    </div>
-
-    
-
-<div class="footer">
-    <p>Generated by Ascend Training Tools</p>
-</div>
-    </div>
-
-<script>
-    const collapsibleHeaders = document.getElementsByClassName('collapsible-header');
-
-    for (let i = 0; i < collapsibleHeaders.length; i++) {
-        collapsibleHeaders[i].addEventListener('click', function (event) {
-            const content = this.nextElementSibling;
-
-            // 判断是否展开当前子列表
-            const isExpanded = content.style.display === 'block';
-
-            // 获取同级别的子列表标题元素
-            const siblingHeaders = this.parentNode.parentNode.getElementsByClassName('collapsible-header');
-
-            // 折叠所有同级别的子列表
-            for (let j = 0; j < siblingHeaders.length; j++) {
-                const siblingContent = siblingHeaders[j].nextElementSibling;
-                if (siblingContent !== content) {
-                    siblingContent.style.display = 'none';
-                    siblingHeaders[j].classList.remove('active');
-                    siblingHeaders[j].classList.remove('opened');
-                } else {
-                    siblingHeaders[j].classList.add('opened');
-                }
-            }
-
-            // 切换当前子列表的展开状态
-            this.classList.toggle('active');
-            if (isExpanded) {
-                content.style.display = 'none';
-            } else {
-                content.style.display = 'block';
-            }
-        });
-    }
-</script>
-
-</body>
-</html>
\ No newline at end of file
diff --git a/applications/ColossalChat/profile_log.txt b/applications/ColossalChat/profile_log.txt
deleted file mode 100644
index 20e56e0b2c33..000000000000
--- a/applications/ColossalChat/profile_log.txt
+++ /dev/null
@@ -1,278 +0,0 @@
-[2025-05-19 17:44:04][INFO] cluster analysis is in the process, please wait...
-[2025-05-19 17:44:04][INFO] Begin generate communication data.
-[2025-05-19 17:44:08][INFO] Communication data read completed.
-Cluster analyzing:   0%|                                                                    | 0/5[2025-05-19 17:44:09][INFO] HostInfoAnalysis completed
-[2025-05-19 17:44:09][INFO] ClusterBaseInfoAnalysis skipped, since data type is not db
-Cluster analyzing:  40%|██████████████████████████▊                                         | 2/5[2025-05-19 17:44:10][INFO] CommMatrixAnalysis completed
-Cluster analyzing:  80%|█████████████████████████████████████████████████████▌              | 4/5[2025-05-19 17:44:12][INFO] CommunicationAnalysis completed
-Cluster analyzing: 100%|███████████████████████████████████████████████████████████████████ | 5/5[2025-05-19 17:44:13][WARNING] StepTraceTimeAnalysis completed
-Cluster analyzing: 100%|███████████████████████████████████████████████████████████████████ | 5/5
-
-
-
-Cluster analyzing: 100%|███████████████████████████████████████████████████████████████████ | 5/5
-[2025-05-19 17:52:51][INFO] The cluster analysis result file has been generated: /home/duanjunwen/ColossalAI/applications/ColossalChat/train_profiling_data
-[2025-05-19 17:52:51][INFO] Cluster has been analyzed because of the existence of cluster analysis output directory.
-[2025-05-19 17:52:51][INFO] Skip Cluster analyze backend.
-[2025-05-19 17:52:52][INFO] Start cluster schedule analysis
-[2025-05-19 17:52:52][INFO] For cluster schedule analysis, maximum free for rank 6 and step 0
-[2025-05-19 17:52:52][INFO] Enable schedule comparison of fast and slow rank/step
-[2025-05-19 17:52:52][INFO] Start cluster computation analysis
-[2025-05-19 17:52:52][INFO] Steps and ranks to be analyzed of different pipeline parallel stages are {"stage-0": {"maximum": {"rank_id": 4, "step": 0}, "minimum": {"rank_id": 0, "step": 0}}, "stage-1": {"maximum": {"rank_id": 5, "step": 0}, "minimum": {"rank_id": 1, "step": 0}}, "stage-2": {"maximum": {"rank_id": 6, "step": 0}, "minimum": {"rank_id": 2, "step": 0}}, "stage-3": {"maximum": {"rank_id": 7, "step": 0}, "minimum": {"rank_id": 3, "step": 0}}, "stage-4": {"maximum": {"rank_id": 12, "step": 0}, "minimum": {"rank_id": 8, "step": 0}}, "stage-5": {"maximum": {"rank_id": 13, "step": 0}, "minimum": {"rank_id": 9, "step": 0}}, "stage-6": {"maximum": {"rank_id": 14, "step": 0}, "minimum": {"rank_id": 10, "step": 0}}, "stage-7": {"maximum": {"rank_id": 15, "step": 0}, "minimum": {"rank_id": 11, "step": 0}}}
-[2025-05-19 17:52:52][INFO] For stage-0, slow rank is 4
-[2025-05-19 17:52:52][INFO] For stage-1, slow rank is 5
-[2025-05-19 17:52:52][INFO] For stage-2, slow rank is 6
-[2025-05-19 17:52:52][INFO] For stage-3, slow rank is 7
-[2025-05-19 17:52:52][INFO] For stage-4, slow rank is 12
-[2025-05-19 17:52:52][INFO] For stage-5, slow rank is 13
-[2025-05-19 17:52:52][INFO] For stage-6, slow rank is 14
-[2025-05-19 17:52:52][INFO] For stage-7, slow rank is 15
-[2025-05-19 17:52:52][INFO] Enable computation comparison of fast and slow rank/step in different pp stages
-[2025-05-19 17:52:52][INFO] Start cluster communication analysis
-[2025-05-19 17:52:52][INFO] Minimum SDMA bandwidth for rank 4 
-[2025-05-19 17:52:52][INFO] Minimum RDMA bandwidth for rank 0 
-[2025-05-19 17:52:52][INFO] Minimum SDMA bandwidth for rank 4 
-[2025-05-19 17:52:52][INFO] Minimum RDMA bandwidth for rank 0 
-[2025-05-19 17:52:52][INFO] Minimum SDMA bandwidth for rank 4 
-[2025-05-19 17:52:52][INFO] Minimum RDMA bandwidth for rank 0 
-[2025-05-19 17:52:52][INFO] Start cluster memory analysis
-[2025-05-19 17:52:52][INFO] For cluster memory analysis, maximum free for rank 6 and step 0
-[2025-05-19 17:52:52][INFO] Start analysis EnvironmentVariableAnalyzer with environment_variable_dataset
-[2025-05-19 17:52:52][WARNING] convert_to_int_with_exception: an empty string was encountered.
-[2025-05-19 17:52:52][WARNING] convert_to_int_with_exception: an empty string was encountered.
-[2025-05-19 17:54:39][INFO] Start analysis MemoryAnalyzer with timeline_event_dataset
-[2025-05-19 17:55:24][INFO] Start analysis ByteAlignmentAnalyzer with ProfilingDataset
-[2025-05-19 17:56:09][INFO] Start analysis BandwidthContentionAnalyzer with communication_dataset
-[2025-05-19 17:56:11][INFO] Start analysis RDMARetransmissionAnalyzer with ClusterCommunicationDataset
-[2025-05-19 17:56:11][INFO] Start analysis PacketAnalyzer with communication_dataset
-[2025-05-19 17:56:11][WARNING] Analyser: ComparisonAnalyzer don't rely on any dataset!
-[2025-05-19 17:56:11][WARNING] Analyser: PPStageComputationAnalyzer don't rely on any dataset!
-[2025-05-19 17:56:57][INFO] Start analysis DynamicShapeAnalyzer with ProfilingDataset
-[2025-05-19 17:57:43][INFO] Start analysis AicpuAnalyzer with ProfilingDataset
-Building dataset for timeline analysis:   0%|                           | 0/2315055 [00:00<?, ?itBuilding dataset for timeline analysis:   0%|             | 4609/2315055 [00:00<00:50, 45984.90itBuilding dataset for timeline analysis:   0%|             | 9226/2315055 [00:00<00:50, 46013.31itBuilding dataset for timeline analysis:   1%|            | 16506/2315055 [00:00<00:39, 57688.66itBuilding dataset for timeline analysis:   1%|▏           | 25302/2315055 [00:00<00:32, 69480.16itBuilding dataset for timeline analysis:   1%|▏           | 32249/2315055 [00:00<00:38, 58903.95itBuilding dataset for timeline analysis:   2%|▏           | 38361/2315055 [00:00<00:38, 58531.05itBuilding dataset for timeline analysis:   2%|▏           | 47215/2315055 [00:00<00:33, 67428.20itBuilding dataset for timeline analysis:   2%|▎           | 54614/2315055 [00:00<00:32, 69305.88itBuilding dataset for timeline analysis:   3%|▎           | 62106/2315055 [00:00<00:31, 70970.24itBuilding dataset for timeline analysis:   3%|▎           | 69682/2315055 [00:01<00:31, 72246.29itBuilding dataset for timeline analysis:   3%|▍           | 77556/2315055 [00:01<00:30, 74112.72itBuilding dataset for timeline analysis:   4%|▍           | 85125/2315055 [00:01<00:29, 74427.82itBuilding dataset for timeline analysis:   4%|▌           | 96464/2315055 [00:01<00:25, 86071.82itBuilding dataset for timeline analysis:   5%|▌          | 109624/2315055 [00:01<00:22, 99607.38itBuilding dataset for timeline analysis:   5%|▌         | 123386/2315055 [00:01<00:19, 110981.42itBuilding dataset for timeline analysis:   6%|▌         | 136753/2315055 [00:01<00:18, 117137.40itBuilding dataset for timeline analysis:   6%|▋         | 150374/2315055 [00:01<00:17, 122448.80itBuilding dataset for timeline analysis:   7%|▋         | 163647/2315055 [00:01<00:17, 125481.58itBuilding dataset for timeline analysis:   8%|▊         | 176208/2315055 [00:01<00:17, 121354.98itBuilding dataset for timeline analysis:   8%|▊         | 188380/2315055 [00:02<00:18, 117643.06itBuilding dataset for timeline analysis:   9%|▊         | 200187/2315055 [00:02<00:18, 116057.22itBuilding dataset for timeline analysis:   9%|▉         | 211822/2315055 [00:02<00:18, 114600.69itBuilding dataset for timeline analysis:  10%|▉         | 223301/2315055 [00:02<00:18, 113465.09itBuilding dataset for timeline analysis:  10%|█         | 234660/2315055 [00:02<00:18, 113258.70itBuilding dataset for timeline analysis:  11%|█         | 245994/2315055 [00:02<00:18, 112259.03itBuilding dataset for timeline analysis:  11%|█         | 257225/2315055 [00:02<00:18, 111826.83itBuilding dataset for timeline analysis:  12%|█▏        | 268411/2315055 [00:02<00:18, 111436.20itBuilding dataset for timeline analysis:  12%|█▏        | 279598/2315055 [00:02<00:18, 110867.86itBuilding dataset for timeline analysis:  13%|█▎        | 290690/2315055 [00:03<00:18, 110748.65itBuilding dataset for timeline analysis:  13%|█▎        | 301777/2315055 [00:03<00:18, 110681.87itBuilding dataset for timeline analysis:  14%|█▎        | 313059/2315055 [00:03<00:18, 110590.36itBuilding dataset for timeline analysis:  14%|█▍        | 324119/2315055 [00:03<00:18, 110276.35itBuilding dataset for timeline analysis:  14%|█▍        | 335147/2315055 [00:03<00:17, 110113.75itBuilding dataset for timeline analysis:  15%|█▍        | 346159/2315055 [00:03<00:18, 106200.71itBuilding dataset for timeline analysis:  15%|█▋         | 356807/2315055 [00:03<00:22, 86453.33itBuilding dataset for timeline analysis:  16%|█▌        | 372383/2315055 [00:03<00:18, 103310.94itBuilding dataset for timeline analysis:  17%|█▋        | 386929/2315055 [00:03<00:16, 114250.70itBuilding dataset for timeline analysis:  17%|█▋        | 401493/2315055 [00:04<00:15, 122684.87itBuilding dataset for timeline analysis:  18%|█▊        | 416241/2315055 [00:04<00:14, 128777.95itBuilding dataset for timeline analysis:  19%|█▊        | 431101/2315055 [00:04<00:14, 133382.86itBuilding dataset for timeline analysis:  19%|█▉        | 446106/2315055 [00:04<00:13, 136985.14itBuilding dataset for timeline analysis:  20%|█▉        | 460017/2315055 [00:04<00:13, 136914.54itBuilding dataset for timeline analysis:  20%|██        | 473857/2315055 [00:04<00:15, 122705.66itBuilding dataset for timeline analysis:  21%|██        | 486491/2315055 [00:04<00:15, 115254.20itBuilding dataset for timeline analysis:  22%|██▏       | 498320/2315055 [00:04<00:16, 112054.90itBuilding dataset for timeline analysis:  22%|██▏       | 509728/2315055 [00:04<00:17, 105332.51itBuilding dataset for timeline analysis:  22%|██▏       | 520435/2315055 [00:05<00:17, 101076.53itBuilding dataset for timeline analysis:  23%|██▌        | 530659/2315055 [00:05<00:18, 97496.58itBuilding dataset for timeline analysis:  24%|██▎       | 544498/2315055 [00:05<00:16, 108390.20itBuilding dataset for timeline analysis:  24%|██▍       | 559292/2315055 [00:05<00:14, 118941.33itBuilding dataset for timeline analysis:  25%|██▍       | 573772/2315055 [00:05<00:13, 125660.32itBuilding dataset for timeline analysis:  25%|██▌       | 588231/2315055 [00:05<00:13, 130560.82itBuilding dataset for timeline analysis:  26%|██▌       | 603115/2315055 [00:05<00:12, 135154.88itBuilding dataset for timeline analysis:  27%|██▋       | 619589/2315055 [00:05<00:11, 143127.79itBuilding dataset for timeline analysis:  27%|██▋       | 636078/2315055 [00:05<00:11, 149002.43itBuilding dataset for timeline analysis:  28%|██▊       | 652564/2315055 [00:05<00:10, 153197.63itBuilding dataset for timeline analysis:  29%|██▉       | 669036/2315055 [00:06<00:10, 156247.77itBuilding dataset for timeline analysis:  30%|██▉       | 685526/2315055 [00:06<00:10, 158500.18itBuilding dataset for timeline analysis:  30%|███       | 701996/2315055 [00:06<00:10, 159948.06itBuilding dataset for timeline analysis:  31%|███       | 718476/2315055 [00:06<00:09, 161114.73itBuilding dataset for timeline analysis:  32%|███▏      | 734963/2315055 [00:06<00:09, 162050.38itBuilding dataset for timeline analysis:  32%|███▏      | 751447/2315055 [00:06<00:09, 162670.34itBuilding dataset for timeline analysis:  33%|███▎      | 767927/2315055 [00:06<00:09, 163106.17itBuilding dataset for timeline analysis:  34%|███▍      | 784409/2315055 [00:06<00:09, 163310.96itBuilding dataset for timeline analysis:  35%|███▍      | 800853/2315055 [00:06<00:09, 163463.15itBuilding dataset for timeline analysis:  35%|███▌      | 817290/2315055 [00:06<00:09, 163489.46itBuilding dataset for timeline analysis:  36%|███▌      | 833758/2315055 [00:07<00:09, 163638.94itBuilding dataset for timeline analysis:  37%|███▋      | 850218/2315055 [00:07<00:08, 163693.18itBuilding dataset for timeline analysis:  37%|███▋      | 866683/2315055 [00:07<00:08, 163744.57itBuilding dataset for timeline analysis:  38%|███▊      | 883156/2315055 [00:07<00:08, 163854.34itBuilding dataset for timeline analysis:  39%|███▉      | 899625/2315055 [00:07<00:08, 163946.14itBuilding dataset for timeline analysis:  40%|███▉      | 916082/2315055 [00:07<00:08, 163971.77itBuilding dataset for timeline analysis:  40%|████      | 932525/2315055 [00:07<00:08, 163408.27itBuilding dataset for timeline analysis:  41%|████      | 948994/2315055 [00:07<00:08, 163559.75itBuilding dataset for timeline analysis:  42%|████▏     | 965439/2315055 [00:07<00:08, 163681.05itBuilding dataset for timeline analysis:  42%|████▏     | 981854/2315055 [00:07<00:08, 163761.51itBuilding dataset for timeline analysis:  43%|████▎     | 998319/2315055 [00:08<00:08, 163815.52itBuilding dataset for timeline analysis:  44%|███▉     | 1014779/2315055 [00:08<00:07, 163788.57itBuilding dataset for timeline analysis:  45%|████     | 1031245/2315055 [00:08<00:07, 163645.63itBuilding dataset for timeline analysis:  45%|████     | 1047706/2315055 [00:08<00:07, 163750.57itBuilding dataset for timeline analysis:  46%|████▏    | 1064174/2315055 [00:08<00:07, 163669.76itBuilding dataset for timeline analysis:  47%|████▏    | 1080646/2315055 [00:08<00:07, 163674.97itBuilding dataset for timeline analysis:  47%|████▎    | 1097101/2315055 [00:08<00:07, 163819.41itBuilding dataset for timeline analysis:  48%|████▎    | 1113572/2315055 [00:08<00:07, 163860.99itBuilding dataset for timeline analysis:  49%|████▍    | 1130035/2315055 [00:08<00:07, 163839.63itBuilding dataset for timeline analysis:  50%|████▍    | 1146481/2315055 [00:08<00:07, 163767.28itBuilding dataset for timeline analysis:  50%|████▌    | 1162946/2315055 [00:09<00:07, 163890.34itBuilding dataset for timeline analysis:  51%|████▌    | 1179358/2315055 [00:09<00:06, 163831.50itBuilding dataset for timeline analysis:  52%|████▋    | 1195845/2315055 [00:09<00:06, 163885.42itBuilding dataset for timeline analysis:  52%|████▋    | 1212307/2315055 [00:09<00:06, 163932.28itBuilding dataset for timeline analysis:  53%|████▊    | 1228701/2315055 [00:09<00:06, 163840.22itBuilding dataset for timeline analysis:  54%|████▊    | 1245086/2315055 [00:09<00:06, 159235.75itBuilding dataset for timeline analysis:  54%|████▉    | 1261037/2315055 [00:09<00:06, 155059.38itBuilding dataset for timeline analysis:  55%|████▉    | 1276579/2315055 [00:09<00:06, 152447.71itBuilding dataset for timeline analysis:  56%|█████    | 1291851/2315055 [00:09<00:06, 151227.05itBuilding dataset for timeline analysis:  56%|█████    | 1306991/2315055 [00:10<00:06, 150086.80itBuilding dataset for timeline analysis:  57%|█████▏   | 1322011/2315055 [00:10<00:06, 148982.28itBuilding dataset for timeline analysis:  58%|█████▏   | 1337072/2315055 [00:10<00:06, 149453.54itBuilding dataset for timeline analysis:  58%|█████▎   | 1352023/2315055 [00:10<00:06, 148344.45itBuilding dataset for timeline analysis:  59%|█████▎   | 1366862/2315055 [00:10<00:06, 147051.38itBuilding dataset for timeline analysis:  60%|█████▎   | 1381885/2315055 [00:10<00:06, 147985.19itBuilding dataset for timeline analysis:  60%|█████▍   | 1396688/2315055 [00:10<00:06, 146874.87itBuilding dataset for timeline analysis:  61%|█████▍   | 1411730/2315055 [00:10<00:06, 146715.21itBuilding dataset for timeline analysis:  62%|█████▌   | 1426862/2315055 [00:10<00:05, 148052.27itBuilding dataset for timeline analysis:  62%|█████▌   | 1441671/2315055 [00:10<00:05, 147023.54itBuilding dataset for timeline analysis:  63%|█████▋   | 1456625/2315055 [00:11<00:05, 146618.06itBuilding dataset for timeline analysis:  64%|█████▋   | 1471757/2315055 [00:11<00:05, 147931.46itBuilding dataset for timeline analysis:  64%|█████▊   | 1486554/2315055 [00:11<00:05, 146881.78itBuilding dataset for timeline analysis:  65%|█████▊   | 1501519/2315055 [00:11<00:05, 147641.82itBuilding dataset for timeline analysis:  65%|█████▉   | 1516287/2315055 [00:11<00:05, 146669.00itBuilding dataset for timeline analysis:  66%|█████▉   | 1531281/2315055 [00:11<00:05, 147624.64itBuilding dataset for timeline analysis:  67%|██████   | 1546047/2315055 [00:11<00:05, 146626.45itBuilding dataset for timeline analysis:  67%|██████   | 1561044/2315055 [00:11<00:05, 146416.70itBuilding dataset for timeline analysis:  68%|██████▏  | 1576176/2315055 [00:11<00:04, 147838.21itBuilding dataset for timeline analysis:  69%|██████▏  | 1590964/2315055 [00:11<00:04, 146708.36itBuilding dataset for timeline analysis:  69%|██████▏  | 1605639/2315055 [00:12<00:04, 145585.69itBuilding dataset for timeline analysis:  70%|██████▎  | 1620567/2315055 [00:12<00:04, 146618.10itBuilding dataset for timeline analysis:  71%|██████▎  | 1635233/2315055 [00:12<00:04, 145549.78itBuilding dataset for timeline analysis:  71%|██████▍  | 1650295/2315055 [00:12<00:04, 147050.57itBuilding dataset for timeline analysis:  72%|██████▍  | 1665005/2315055 [00:12<00:04, 145898.13itBuilding dataset for timeline analysis:  73%|██████▌  | 1680090/2315055 [00:12<00:04, 147348.99itBuilding dataset for timeline analysis:  73%|██████▌  | 1694830/2315055 [00:12<00:04, 146411.57itBuilding dataset for timeline analysis:  74%|██████▋  | 1709853/2315055 [00:12<00:04, 146343.63itBuilding dataset for timeline analysis:  75%|██████▋  | 1724976/2315055 [00:12<00:03, 147788.59itBuilding dataset for timeline analysis:  75%|██████▊  | 1739759/2315055 [00:12<00:03, 146688.28itBuilding dataset for timeline analysis:  76%|██████▊  | 1754747/2315055 [00:13<00:03, 147597.24itBuilding dataset for timeline analysis:  76%|██████▉  | 1769511/2315055 [00:13<00:03, 146629.89itBuilding dataset for timeline analysis:  77%|██████▉  | 1784509/2315055 [00:13<00:03, 147615.43itBuilding dataset for timeline analysis:  78%|██████▉  | 1799274/2315055 [00:13<00:03, 146598.20itBuilding dataset for timeline analysis:  78%|███████  | 1814272/2315055 [00:13<00:03, 146411.84itBuilding dataset for timeline analysis:  79%|███████  | 1829404/2315055 [00:13<00:03, 147844.11itBuilding dataset for timeline analysis:  80%|███████▏ | 1844192/2315055 [00:13<00:03, 146817.93itBuilding dataset for timeline analysis:  80%|███████▏ | 1859167/2315055 [00:13<00:03, 146489.27itBuilding dataset for timeline analysis:  81%|███████▎ | 1874299/2315055 [00:13<00:02, 147849.50itBuilding dataset for timeline analysis:  82%|███████▎ | 1889088/2315055 [00:13<00:02, 146829.62itBuilding dataset for timeline analysis:  82%|███████▍ | 1904062/2315055 [00:14<00:02, 146526.10itBuilding dataset for timeline analysis:  83%|███████▍ | 1919164/2315055 [00:14<00:02, 147853.62itBuilding dataset for timeline analysis:  84%|███████▌ | 1933953/2315055 [00:14<00:02, 146605.90itBuilding dataset for timeline analysis:  84%|███████▌ | 1948957/2315055 [00:14<00:02, 146436.58itBuilding dataset for timeline analysis:  85%|███████▋ | 1964089/2315055 [00:14<00:02, 147798.51itBuilding dataset for timeline analysis:  85%|███████▋ | 1978873/2315055 [00:14<00:02, 146804.42itBuilding dataset for timeline analysis:  86%|███████▊ | 1993852/2315055 [00:14<00:02, 146535.46itBuilding dataset for timeline analysis:  87%|███████▊ | 2008984/2315055 [00:14<00:02, 147915.14itBuilding dataset for timeline analysis:  87%|███████▊ | 2023780/2315055 [00:14<00:01, 146803.99itBuilding dataset for timeline analysis:  88%|███████▉ | 2038747/2315055 [00:14<00:01, 146460.81itBuilding dataset for timeline analysis:  89%|███████▉ | 2053879/2315055 [00:15<00:01, 147872.81itBuilding dataset for timeline analysis:  89%|████████ | 2068671/2315055 [00:15<00:01, 146902.27itBuilding dataset for timeline analysis:  90%|████████ | 2083642/2315055 [00:15<00:01, 146540.76itBuilding dataset for timeline analysis:  91%|████████▏| 2098775/2315055 [00:15<00:01, 147877.45itBuilding dataset for timeline analysis:  91%|████████▏| 2113567/2315055 [00:15<00:01, 146848.29itBuilding dataset for timeline analysis:  92%|████████▎| 2128537/2315055 [00:15<00:01, 146515.43itBuilding dataset for timeline analysis:  93%|████████▎| 2143670/2315055 [00:15<00:01, 147878.66itBuilding dataset for timeline analysis:  93%|████████▍| 2158462/2315055 [00:15<00:01, 146815.26itBuilding dataset for timeline analysis:  94%|████████▍| 2173433/2315055 [00:15<00:00, 146475.56itBuilding dataset for timeline analysis:  95%|████████▌| 2188565/2315055 [00:16<00:00, 147897.49itBuilding dataset for timeline analysis:  95%|████████▌| 2203359/2315055 [00:16<00:00, 146941.21itBuilding dataset for timeline analysis:  96%|████████▌| 2218328/2315055 [00:16<00:00, 146616.47itBuilding dataset for timeline analysis:  96%|████████▋| 2233354/2315055 [00:16<00:00, 147692.35itBuilding dataset for timeline analysis:  97%|████████▋| 2248127/2315055 [00:16<00:00, 146578.37itBuilding dataset for timeline analysis:  98%|████████▊| 2263222/2315055 [00:16<00:00, 147863.78itBuilding dataset for timeline analysis:  98%|████████▊| 2278013/2315055 [00:16<00:00, 146787.76itBuilding dataset for timeline analysis:  99%|████████▉| 2293262/2315055 [00:16<00:00, 147835.34itBuilding dataset for timeline analysis: 100%|████████▉| 2309006/2315055 [00:16<00:00, 150638.25it  
-[2025-05-19 18:05:34][INFO] Start analysis OperatorBoundAnalyzer with ProfilingDataset
-[2025-05-19 18:06:15][INFO] Start analysis BlockDimAnalyzer with ProfilingDataset
-[2025-05-19 18:07:01][INFO] Start analysis FusionOPAnalyzer with GraphDataset
-[2025-05-19 18:07:03][INFO] Start analysis AICoreFreqAnalyzer with timeline_event_dataset
-[2025-05-19 18:08:24][INFO] Start analysis DynamicShapeAnalyzer with ProfilingDataset
-[2025-05-19 18:09:10][INFO] Start analysis AicpuAnalyzer with ProfilingDataset
-Building dataset for timeline analysis:   0%|                           | 0/2279011 [00:00<?, ?itBuilding dataset for timeline analysis:   0%|             | 4590/2279011 [00:00<00:49, 45820.84itBuilding dataset for timeline analysis:   0%|             | 9206/2279011 [00:00<00:49, 45912.26itBuilding dataset for timeline analysis:   1%|            | 14987/2279011 [00:00<00:44, 51033.55itBuilding dataset for timeline analysis:   1%|▏           | 23940/2279011 [00:00<00:34, 66139.89itBuilding dataset for timeline analysis:   1%|▏           | 30559/2279011 [00:00<00:37, 59403.96itBuilding dataset for timeline analysis:   2%|▏           | 36605/2279011 [00:00<00:40, 55672.66itBuilding dataset for timeline analysis:   2%|▏           | 45634/2279011 [00:00<00:33, 65913.40itBuilding dataset for timeline analysis:   2%|▎           | 53268/2279011 [00:00<00:32, 68943.46itBuilding dataset for timeline analysis:   3%|▎           | 60527/2279011 [00:00<00:31, 69963.37itBuilding dataset for timeline analysis:   3%|▎           | 68015/2279011 [00:01<00:30, 71327.25itBuilding dataset for timeline analysis:   3%|▍           | 75822/2279011 [00:01<00:30, 73191.86itBuilding dataset for timeline analysis:   4%|▍           | 83286/2279011 [00:01<00:29, 73591.10itBuilding dataset for timeline analysis:   4%|▍           | 93947/2279011 [00:01<00:26, 83457.44itBuilding dataset for timeline analysis:   5%|▌          | 107361/2279011 [00:01<00:22, 98485.34itBuilding dataset for timeline analysis:   5%|▌         | 121178/2279011 [00:01<00:19, 110355.38itBuilding dataset for timeline analysis:   6%|▌         | 134575/2279011 [00:01<00:18, 116748.95itBuilding dataset for timeline analysis:   7%|▋         | 148194/2279011 [00:01<00:17, 122086.13itBuilding dataset for timeline analysis:   7%|▋         | 161956/2279011 [00:01<00:16, 126155.37itBuilding dataset for timeline analysis:   8%|▊         | 174580/2279011 [00:01<00:17, 122009.89itBuilding dataset for timeline analysis:   8%|▊         | 186814/2279011 [00:02<00:17, 118318.34itBuilding dataset for timeline analysis:   9%|▊         | 198684/2279011 [00:02<00:17, 115775.32itBuilding dataset for timeline analysis:   9%|▉         | 210291/2279011 [00:02<00:18, 114263.58itBuilding dataset for timeline analysis:  10%|▉         | 221736/2279011 [00:02<00:18, 113840.55itBuilding dataset for timeline analysis:  10%|█         | 233132/2279011 [00:02<00:18, 112746.80itBuilding dataset for timeline analysis:  11%|█         | 244414/2279011 [00:02<00:18, 112466.47itBuilding dataset for timeline analysis:  11%|█         | 255665/2279011 [00:02<00:18, 111861.70itBuilding dataset for timeline analysis:  12%|█▏        | 266854/2279011 [00:02<00:18, 111345.45itBuilding dataset for timeline analysis:  12%|█▏        | 277990/2279011 [00:02<00:18, 110726.91itBuilding dataset for timeline analysis:  13%|█▎        | 289064/2279011 [00:03<00:17, 110700.73itBuilding dataset for timeline analysis:  13%|█▎        | 300148/2279011 [00:03<00:17, 110659.05itBuilding dataset for timeline analysis:  14%|█▎        | 311421/2279011 [00:03<00:17, 110566.49itBuilding dataset for timeline analysis:  14%|█▍        | 322653/2279011 [00:03<00:17, 110588.33itBuilding dataset for timeline analysis:  15%|█▍        | 333716/2279011 [00:03<00:17, 110472.42itBuilding dataset for timeline analysis:  15%|█▌        | 344902/2279011 [00:03<00:17, 110546.70itBuilding dataset for timeline analysis:  16%|█▌        | 358080/2279011 [00:03<00:16, 116695.09itBuilding dataset for timeline analysis:  16%|█▋        | 372712/2279011 [00:03<00:15, 125256.79itBuilding dataset for timeline analysis:  17%|█▋        | 387593/2279011 [00:03<00:14, 131457.62itBuilding dataset for timeline analysis:  18%|█▊        | 400736/2279011 [00:03<00:17, 108415.29itBuilding dataset for timeline analysis:  18%|█▉         | 412236/2279011 [00:04<00:18, 99640.64itBuilding dataset for timeline analysis:  19%|██         | 422741/2279011 [00:04<00:18, 99020.18itBuilding dataset for timeline analysis:  19%|██         | 433014/2279011 [00:04<00:18, 98708.58itBuilding dataset for timeline analysis:  19%|█▉        | 443568/2279011 [00:04<00:18, 100541.48itBuilding dataset for timeline analysis:  20%|██        | 456339/2279011 [00:04<00:16, 108042.92itBuilding dataset for timeline analysis:  21%|██        | 470753/2279011 [00:04<00:15, 118252.76itBuilding dataset for timeline analysis:  21%|██        | 482778/2279011 [00:04<00:16, 109044.79itBuilding dataset for timeline analysis:  22%|██▏       | 493947/2279011 [00:04<00:17, 103244.47itBuilding dataset for timeline analysis:  22%|██▍        | 504489/2279011 [00:05<00:17, 99724.29itBuilding dataset for timeline analysis:  23%|██▎       | 519428/2279011 [00:05<00:15, 112657.31itBuilding dataset for timeline analysis:  23%|██▎       | 534468/2279011 [00:05<00:14, 122324.63itBuilding dataset for timeline analysis:  24%|██▍       | 549145/2279011 [00:05<00:13, 129038.78itBuilding dataset for timeline analysis:  25%|██▍       | 563584/2279011 [00:05<00:12, 133091.27itBuilding dataset for timeline analysis:  25%|██▌       | 578011/2279011 [00:05<00:12, 135952.86itBuilding dataset for timeline analysis:  26%|██▌       | 592446/2279011 [00:05<00:12, 138055.49itBuilding dataset for timeline analysis:  27%|██▋       | 608174/2279011 [00:05<00:11, 143710.58itBuilding dataset for timeline analysis:  27%|██▋       | 624423/2279011 [00:05<00:11, 148963.87itBuilding dataset for timeline analysis:  28%|██▊       | 640904/2279011 [00:05<00:10, 153248.43itBuilding dataset for timeline analysis:  29%|██▉       | 657393/2279011 [00:06<00:10, 156439.73itBuilding dataset for timeline analysis:  30%|██▉       | 673878/2279011 [00:06<00:10, 158679.56itBuilding dataset for timeline analysis:  30%|███       | 690355/2279011 [00:06<00:09, 160246.31itBuilding dataset for timeline analysis:  31%|███       | 706840/2279011 [00:06<00:09, 161360.27itBuilding dataset for timeline analysis:  32%|███▏      | 723314/2279011 [00:06<00:09, 162116.94itBuilding dataset for timeline analysis:  32%|███▏      | 739796/2279011 [00:06<00:09, 162674.99itBuilding dataset for timeline analysis:  33%|███▎      | 756285/2279011 [00:06<00:09, 163034.19itBuilding dataset for timeline analysis:  34%|███▍      | 772769/2279011 [00:06<00:09, 163276.65itBuilding dataset for timeline analysis:  35%|███▍      | 789232/2279011 [00:06<00:09, 163421.18itBuilding dataset for timeline analysis:  35%|███▌      | 805689/2279011 [00:06<00:09, 163644.62itBuilding dataset for timeline analysis:  36%|███▌      | 822150/2279011 [00:07<00:08, 163751.90itBuilding dataset for timeline analysis:  37%|███▋      | 838610/2279011 [00:07<00:08, 163760.26itBuilding dataset for timeline analysis:  38%|███▊      | 855085/2279011 [00:07<00:08, 163705.08itBuilding dataset for timeline analysis:  38%|███▊      | 871544/2279011 [00:07<00:08, 163695.84itBuilding dataset for timeline analysis:  39%|███▉      | 887999/2279011 [00:07<00:08, 163783.58itBuilding dataset for timeline analysis:  40%|███▉      | 904473/2279011 [00:07<00:08, 163837.29itBuilding dataset for timeline analysis:  40%|████      | 920941/2279011 [00:07<00:08, 163910.06itBuilding dataset for timeline analysis:  41%|████      | 937380/2279011 [00:07<00:08, 163831.81itBuilding dataset for timeline analysis:  42%|████▏     | 953789/2279011 [00:07<00:08, 163851.82itBuilding dataset for timeline analysis:  43%|████▎     | 970260/2279011 [00:07<00:07, 163888.27itBuilding dataset for timeline analysis:  43%|████▎     | 986717/2279011 [00:08<00:07, 163811.72itBuilding dataset for timeline analysis:  44%|███▉     | 1003190/2279011 [00:08<00:07, 163774.13itBuilding dataset for timeline analysis:  45%|████     | 1019651/2279011 [00:08<00:07, 163789.76itBuilding dataset for timeline analysis:  45%|████     | 1036119/2279011 [00:08<00:07, 163920.89itBuilding dataset for timeline analysis:  46%|████▏    | 1052571/2279011 [00:08<00:07, 163798.07itBuilding dataset for timeline analysis:  47%|████▏    | 1069040/2279011 [00:08<00:07, 163771.30itBuilding dataset for timeline analysis:  48%|████▎    | 1085506/2279011 [00:08<00:07, 163804.22itBuilding dataset for timeline analysis:  48%|████▎    | 1101969/2279011 [00:08<00:07, 163845.83itBuilding dataset for timeline analysis:  49%|████▍    | 1118437/2279011 [00:08<00:07, 163848.02itBuilding dataset for timeline analysis:  50%|████▍    | 1134895/2279011 [00:08<00:06, 163802.56itBuilding dataset for timeline analysis:  51%|████▌    | 1151309/2279011 [00:09<00:06, 163865.88itBuilding dataset for timeline analysis:  51%|████▌    | 1167767/2279011 [00:09<00:06, 163748.08itBuilding dataset for timeline analysis:  52%|████▋    | 1184249/2279011 [00:09<00:06, 163844.38itBuilding dataset for timeline analysis:  53%|████▋    | 1200699/2279011 [00:09<00:06, 163804.93itBuilding dataset for timeline analysis:  53%|████▊    | 1217080/2279011 [00:09<00:06, 163576.06itBuilding dataset for timeline analysis:  54%|████▊    | 1233438/2279011 [00:09<00:06, 157478.40itBuilding dataset for timeline analysis:  55%|████▉    | 1249234/2279011 [00:09<00:06, 154801.72itBuilding dataset for timeline analysis:  55%|████▉    | 1264751/2279011 [00:09<00:06, 152150.30itBuilding dataset for timeline analysis:  56%|█████    | 1279995/2279011 [00:09<00:06, 150955.07itBuilding dataset for timeline analysis:  57%|█████    | 1295109/2279011 [00:09<00:06, 149747.51itBuilding dataset for timeline analysis:  57%|█████▏   | 1310095/2279011 [00:10<00:06, 148657.22itBuilding dataset for timeline analysis:  58%|█████▏   | 1325086/2279011 [00:10<00:06, 147874.04itBuilding dataset for timeline analysis:  59%|█████▎   | 1340201/2279011 [00:10<00:06, 148832.41itBuilding dataset for timeline analysis:  59%|█████▎   | 1355090/2279011 [00:10<00:06, 147699.28itBuilding dataset for timeline analysis:  60%|█████▍   | 1369981/2279011 [00:10<00:06, 146925.47itBuilding dataset for timeline analysis:  61%|█████▍   | 1385010/2279011 [00:10<00:06, 147915.67itBuilding dataset for timeline analysis:  61%|█████▌   | 1399806/2279011 [00:10<00:05, 146779.39itBuilding dataset for timeline analysis:  62%|█████▌   | 1414876/2279011 [00:10<00:05, 147933.98itBuilding dataset for timeline analysis:  63%|█████▋   | 1429674/2279011 [00:10<00:05, 146899.55itBuilding dataset for timeline analysis:  63%|█████▋   | 1444638/2279011 [00:10<00:05, 146567.40itBuilding dataset for timeline analysis:  64%|█████▊   | 1459771/2279011 [00:11<00:05, 147904.64itBuilding dataset for timeline analysis:  65%|█████▊   | 1474565/2279011 [00:11<00:05, 146868.62itBuilding dataset for timeline analysis:  65%|█████▉   | 1489533/2279011 [00:11<00:05, 147669.96itBuilding dataset for timeline analysis:  66%|█████▉   | 1504304/2279011 [00:11<00:05, 146655.33itBuilding dataset for timeline analysis:  67%|█████▉   | 1519295/2279011 [00:11<00:05, 146423.12itBuilding dataset for timeline analysis:  67%|██████   | 1534428/2279011 [00:11<00:05, 147847.90itBuilding dataset for timeline analysis:  68%|██████   | 1549217/2279011 [00:11<00:04, 146841.44itBuilding dataset for timeline analysis:  69%|██████▏  | 1564190/2279011 [00:11<00:04, 147619.94itBuilding dataset for timeline analysis:  69%|██████▏  | 1578955/2279011 [00:11<00:04, 146638.52itBuilding dataset for timeline analysis:  70%|██████▎  | 1593951/2279011 [00:12<00:04, 147613.69itBuilding dataset for timeline analysis:  71%|██████▎  | 1608716/2279011 [00:12<00:04, 146628.70itBuilding dataset for timeline analysis:  71%|██████▍  | 1623714/2279011 [00:12<00:04, 146438.34itBuilding dataset for timeline analysis:  72%|██████▍  | 1638847/2279011 [00:12<00:04, 147878.49itBuilding dataset for timeline analysis:  73%|██████▌  | 1653639/2279011 [00:12<00:04, 146912.85itBuilding dataset for timeline analysis:  73%|██████▌  | 1668608/2279011 [00:12<00:04, 147705.94itBuilding dataset for timeline analysis:  74%|██████▋  | 1683382/2279011 [00:12<00:04, 146704.13itBuilding dataset for timeline analysis:  75%|██████▋  | 1698371/2279011 [00:12<00:03, 146481.15itBuilding dataset for timeline analysis:  75%|██████▊  | 1713494/2279011 [00:12<00:03, 147885.52itBuilding dataset for timeline analysis:  76%|██████▊  | 1728286/2279011 [00:12<00:03, 146772.29itBuilding dataset for timeline analysis:  76%|██████▉  | 1743266/2279011 [00:13<00:03, 146465.05itBuilding dataset for timeline analysis:  77%|██████▉  | 1758390/2279011 [00:13<00:03, 147875.56itBuilding dataset for timeline analysis:  78%|███████  | 1773182/2279011 [00:13<00:03, 146785.30itBuilding dataset for timeline analysis:  78%|███████  | 1788161/2279011 [00:13<00:03, 146464.66itBuilding dataset for timeline analysis:  79%|███████  | 1803281/2279011 [00:13<00:03, 147862.95itBuilding dataset for timeline analysis:  80%|███████▏ | 1818072/2279011 [00:13<00:03, 146743.10itBuilding dataset for timeline analysis:  80%|███████▏ | 1833056/2279011 [00:13<00:03, 146469.19itBuilding dataset for timeline analysis:  81%|███████▎ | 1848076/2279011 [00:13<00:02, 147570.05itBuilding dataset for timeline analysis:  82%|███████▎ | 1862837/2279011 [00:13<00:02, 146500.58itBuilding dataset for timeline analysis:  82%|███████▍ | 1877950/2279011 [00:13<00:02, 147826.34itBuilding dataset for timeline analysis:  83%|███████▍ | 1892737/2279011 [00:14<00:02, 146791.06itBuilding dataset for timeline analysis:  84%|███████▌ | 1907712/2279011 [00:14<00:02, 147627.04itBuilding dataset for timeline analysis:  84%|███████▌ | 1922478/2279011 [00:14<00:02, 146610.38itBuilding dataset for timeline analysis:  85%|███████▋ | 1937474/2279011 [00:14<00:02, 147590.26itBuilding dataset for timeline analysis:  86%|███████▋ | 1952237/2279011 [00:14<00:02, 146485.11itBuilding dataset for timeline analysis:  86%|███████▊ | 1967236/2279011 [00:14<00:02, 147519.94itBuilding dataset for timeline analysis:  87%|███████▊ | 1981992/2279011 [00:14<00:02, 146422.10itBuilding dataset for timeline analysis:  88%|███████▉ | 1996999/2279011 [00:14<00:01, 146290.43itBuilding dataset for timeline analysis:  88%|███████▉ | 2012095/2279011 [00:14<00:01, 147670.28itBuilding dataset for timeline analysis:  89%|████████ | 2026866/2279011 [00:14<00:01, 146476.67itBuilding dataset for timeline analysis:  90%|████████ | 2041893/2279011 [00:15<00:01, 147589.80itBuilding dataset for timeline analysis:  90%|████████ | 2056656/2279011 [00:15<00:01, 146577.08itBuilding dataset for timeline analysis:  91%|████████▏| 2071655/2279011 [00:15<00:01, 147545.17itBuilding dataset for timeline analysis:  92%|████████▏| 2086413/2279011 [00:15<00:01, 146559.53itBuilding dataset for timeline analysis:  92%|████████▎| 2101417/2279011 [00:15<00:01, 147548.11itBuilding dataset for timeline analysis:  93%|████████▎| 2116176/2279011 [00:15<00:01, 146516.77itBuilding dataset for timeline analysis:  94%|████████▍| 2131179/2279011 [00:15<00:01, 147532.00itBuilding dataset for timeline analysis:  94%|████████▍| 2145936/2279011 [00:15<00:00, 146501.74itBuilding dataset for timeline analysis:  95%|████████▌| 2160941/2279011 [00:15<00:00, 147544.52itBuilding dataset for timeline analysis:  95%|████████▌| 2175699/2279011 [00:15<00:00, 146585.82itBuilding dataset for timeline analysis:  96%|████████▋| 2190702/2279011 [00:16<00:00, 147555.92itBuilding dataset for timeline analysis:  97%|████████▋| 2205461/2279011 [00:16<00:00, 146534.90itBuilding dataset for timeline analysis:  97%|████████▊| 2220464/2279011 [00:16<00:00, 147552.84itBuilding dataset for timeline analysis:  98%|████████▊| 2235223/2279011 [00:16<00:00, 146560.54itBuilding dataset for timeline analysis:  99%|████████▉| 2250278/2279011 [00:16<00:00, 146861.93itBuilding dataset for timeline analysis:  99%|████████▉| 2265885/2279011 [00:16<00:00, 149592.15it
-
-[2025-05-19 18:11:15][INFO] Start analysis OperatorBoundAnalyzer with ProfilingDataset
-[2025-05-19 18:11:55][INFO] Start analysis BlockDimAnalyzer with ProfilingDataset
-[2025-05-19 18:12:40][INFO] Start analysis FusionOPAnalyzer with GraphDataset
-[2025-05-19 18:12:42][INFO] Start analysis AICoreFreqAnalyzer with timeline_event_dataset
-[2025-05-19 18:14:07][INFO] Start analysis DynamicShapeAnalyzer with ProfilingDataset
-[2025-05-19 18:14:51][INFO] Start analysis AicpuAnalyzer with ProfilingDataset
-Building dataset for timeline analysis:   0%|                           | 0/2299714 [00:00<?, ?itBuilding dataset for timeline analysis:   0%|             | 4609/2299714 [00:00<00:49, 45931.58itBuilding dataset for timeline analysis:   0%|             | 9203/2299714 [00:00<00:49, 45911.41itBuilding dataset for timeline analysis:   1%|            | 16377/2299714 [00:00<00:39, 57319.70itBuilding dataset for timeline analysis:   1%|▏           | 25139/2299714 [00:00<00:32, 69172.33itBuilding dataset for timeline analysis:   1%|▏           | 32056/2299714 [00:00<00:38, 59007.56itBuilding dataset for timeline analysis:   2%|▏           | 38165/2299714 [00:00<00:38, 59030.57itBuilding dataset for timeline analysis:   2%|▏           | 47008/2299714 [00:00<00:33, 67800.34itBuilding dataset for timeline analysis:   2%|▎           | 54297/2299714 [00:00<00:32, 69328.35itBuilding dataset for timeline analysis:   3%|▎           | 61778/2299714 [00:00<00:31, 70819.69itBuilding dataset for timeline analysis:   3%|▎           | 69293/2299714 [00:01<00:30, 72062.26itBuilding dataset for timeline analysis:   3%|▍           | 77147/2299714 [00:01<00:30, 73894.62itBuilding dataset for timeline analysis:   4%|▍           | 84671/2299714 [00:01<00:29, 74296.31itBuilding dataset for timeline analysis:   4%|▌           | 96769/2299714 [00:01<00:25, 87932.68itBuilding dataset for timeline analysis:   5%|▍         | 110337/2299714 [00:01<00:21, 102202.62itBuilding dataset for timeline analysis:   5%|▌         | 123992/2299714 [00:01<00:19, 111870.49itBuilding dataset for timeline analysis:   6%|▌         | 137722/2299714 [00:01<00:18, 118784.61itBuilding dataset for timeline analysis:   7%|▋         | 151340/2299714 [00:01<00:17, 123618.59itBuilding dataset for timeline analysis:   7%|▋         | 164527/2299714 [00:01<00:17, 125512.63itBuilding dataset for timeline analysis:   8%|▊         | 177085/2299714 [00:01<00:17, 121546.83itBuilding dataset for timeline analysis:   8%|▊         | 189268/2299714 [00:02<00:17, 117695.90itBuilding dataset for timeline analysis:   9%|▊         | 201075/2299714 [00:02<00:18, 116214.24itBuilding dataset for timeline analysis:   9%|▉         | 212721/2299714 [00:02<00:18, 114849.80itBuilding dataset for timeline analysis:  10%|▉         | 224222/2299714 [00:02<00:18, 113755.40itBuilding dataset for timeline analysis:  10%|█         | 235607/2299714 [00:02<00:18, 113013.56itBuilding dataset for timeline analysis:  11%|█         | 246914/2299714 [00:02<00:18, 112721.06itBuilding dataset for timeline analysis:  11%|█         | 258190/2299714 [00:02<00:18, 112450.93itBuilding dataset for timeline analysis:  12%|█▏        | 269437/2299714 [00:02<00:18, 111296.36itBuilding dataset for timeline analysis:  12%|█▏        | 280596/2299714 [00:02<00:18, 111381.16itBuilding dataset for timeline analysis:  13%|█▎        | 291736/2299714 [00:03<00:18, 111341.28itBuilding dataset for timeline analysis:  13%|█▎        | 302872/2299714 [00:03<00:17, 111289.09itBuilding dataset for timeline analysis:  14%|█▎        | 314002/2299714 [00:03<00:17, 110686.45itBuilding dataset for timeline analysis:  14%|█▍        | 325085/2299714 [00:03<00:17, 110571.06itBuilding dataset for timeline analysis:  15%|█▍        | 336293/2299714 [00:03<00:17, 111018.85itBuilding dataset for timeline analysis:  15%|█▌        | 347396/2299714 [00:03<00:18, 106861.14itBuilding dataset for timeline analysis:  16%|█▌        | 358115/2299714 [00:03<00:18, 104582.94itBuilding dataset for timeline analysis:  16%|█▊         | 368601/2299714 [00:03<00:22, 85626.40itBuilding dataset for timeline analysis:  17%|█▋        | 383004/2299714 [00:03<00:19, 100371.30itBuilding dataset for timeline analysis:  17%|█▋        | 397651/2299714 [00:04<00:16, 112009.86itBuilding dataset for timeline analysis:  18%|█▊        | 412321/2299714 [00:04<00:15, 120625.52itBuilding dataset for timeline analysis:  19%|█▊        | 426981/2299714 [00:04<00:14, 127425.19itBuilding dataset for timeline analysis:  19%|█▉        | 441919/2299714 [00:04<00:13, 133673.22itBuilding dataset for timeline analysis:  20%|█▉        | 456312/2299714 [00:04<00:13, 136358.63itBuilding dataset for timeline analysis:  20%|██        | 470168/2299714 [00:04<00:14, 122386.57itBuilding dataset for timeline analysis:  21%|██        | 482817/2299714 [00:04<00:15, 114797.69itBuilding dataset for timeline analysis:  22%|██▏       | 494638/2299714 [00:04<00:16, 111885.76itBuilding dataset for timeline analysis:  22%|██▏       | 506055/2299714 [00:04<00:16, 106180.73itBuilding dataset for timeline analysis:  22%|██▏       | 516850/2299714 [00:05<00:17, 101258.02itBuilding dataset for timeline analysis:  23%|██▌        | 527104/2299714 [00:05<00:17, 98478.38itBuilding dataset for timeline analysis:  23%|██▎       | 537874/2299714 [00:05<00:17, 100950.45itBuilding dataset for timeline analysis:  24%|██▍       | 553936/2299714 [00:05<00:14, 117430.08itBuilding dataset for timeline analysis:  25%|██▍       | 567942/2299714 [00:05<00:14, 123395.51itBuilding dataset for timeline analysis:  25%|██▌       | 582411/2299714 [00:05<00:13, 128978.02itBuilding dataset for timeline analysis:  26%|██▌       | 596883/2299714 [00:05<00:12, 133003.04itBuilding dataset for timeline analysis:  27%|██▋       | 612883/2299714 [00:05<00:11, 140715.66itBuilding dataset for timeline analysis:  27%|██▋       | 629353/2299714 [00:05<00:11, 147358.36itBuilding dataset for timeline analysis:  28%|██▊       | 645838/2299714 [00:05<00:10, 152219.93itBuilding dataset for timeline analysis:  29%|██▉       | 662325/2299714 [00:06<00:10, 155720.81itBuilding dataset for timeline analysis:  30%|██▉       | 678813/2299714 [00:06<00:10, 158172.34itBuilding dataset for timeline analysis:  30%|███       | 695298/2299714 [00:06<00:10, 159828.09itBuilding dataset for timeline analysis:  31%|███       | 711777/2299714 [00:06<00:09, 161052.75itBuilding dataset for timeline analysis:  32%|███▏      | 728263/2299714 [00:06<00:09, 162000.00itBuilding dataset for timeline analysis:  32%|███▏      | 744733/2299714 [00:06<00:09, 162620.67itBuilding dataset for timeline analysis:  33%|███▎      | 761220/2299714 [00:06<00:09, 163126.12itBuilding dataset for timeline analysis:  34%|███▍      | 777705/2299714 [00:06<00:09, 163459.57itBuilding dataset for timeline analysis:  35%|███▍      | 794167/2299714 [00:06<00:09, 163662.02itBuilding dataset for timeline analysis:  35%|███▌      | 810633/2299714 [00:06<00:09, 163811.50itBuilding dataset for timeline analysis:  36%|███▌      | 827101/2299714 [00:07<00:08, 163943.22itBuilding dataset for timeline analysis:  37%|███▋      | 843557/2299714 [00:07<00:08, 163970.26itBuilding dataset for timeline analysis:  37%|███▋      | 860009/2299714 [00:07<00:08, 164028.44itBuilding dataset for timeline analysis:  38%|███▊      | 876480/2299714 [00:07<00:08, 163944.67itBuilding dataset for timeline analysis:  39%|███▉      | 892948/2299714 [00:07<00:08, 163686.35itBuilding dataset for timeline analysis:  40%|███▉      | 909398/2299714 [00:07<00:08, 163879.33itBuilding dataset for timeline analysis:  40%|████      | 925872/2299714 [00:07<00:08, 164082.63itBuilding dataset for timeline analysis:  41%|████      | 942339/2299714 [00:07<00:08, 164143.22itBuilding dataset for timeline analysis:  42%|████▏     | 958871/2299714 [00:07<00:08, 164493.21itBuilding dataset for timeline analysis:  42%|████▏     | 975321/2299714 [00:07<00:08, 164428.70itBuilding dataset for timeline analysis:  43%|████▎     | 991765/2299714 [00:08<00:07, 164396.55itBuilding dataset for timeline analysis:  44%|███▉     | 1008215/2299714 [00:08<00:07, 164425.60itBuilding dataset for timeline analysis:  45%|████     | 1024658/2299714 [00:08<00:07, 164345.34itBuilding dataset for timeline analysis:  45%|████     | 1041093/2299714 [00:08<00:07, 164329.75itBuilding dataset for timeline analysis:  46%|████▏    | 1057527/2299714 [00:08<00:07, 164263.48itBuilding dataset for timeline analysis:  47%|████▏    | 1073963/2299714 [00:08<00:07, 164245.16itBuilding dataset for timeline analysis:  47%|████▎    | 1090494/2299714 [00:08<00:07, 164561.59itBuilding dataset for timeline analysis:  48%|████▎    | 1106951/2299714 [00:08<00:07, 164528.76itBuilding dataset for timeline analysis:  49%|████▍    | 1123404/2299714 [00:08<00:07, 164518.01itBuilding dataset for timeline analysis:  50%|████▍    | 1139856/2299714 [00:08<00:07, 164499.01itBuilding dataset for timeline analysis:  50%|████▌    | 1156306/2299714 [00:09<00:06, 164411.66itBuilding dataset for timeline analysis:  51%|████▌    | 1173064/2299714 [00:09<00:06, 165359.71itBuilding dataset for timeline analysis:  52%|████▋    | 1189601/2299714 [00:09<00:06, 165281.31itBuilding dataset for timeline analysis:  52%|████▋    | 1206130/2299714 [00:09<00:06, 165212.64itBuilding dataset for timeline analysis:  53%|████▊    | 1222652/2299714 [00:09<00:06, 163675.66itBuilding dataset for timeline analysis:  54%|████▊    | 1239023/2299714 [00:09<00:06, 159546.96itBuilding dataset for timeline analysis:  55%|████▉    | 1255001/2299714 [00:09<00:06, 155599.08itBuilding dataset for timeline analysis:  55%|████▉    | 1270591/2299714 [00:09<00:06, 153318.96itBuilding dataset for timeline analysis:  56%|█████    | 1285945/2299714 [00:09<00:06, 152346.86itBuilding dataset for timeline analysis:  57%|█████    | 1301193/2299714 [00:09<00:06, 151546.05itBuilding dataset for timeline analysis:  57%|█████▏   | 1316356/2299714 [00:10<00:06, 149460.89itBuilding dataset for timeline analysis:  58%|█████▏   | 1331466/2299714 [00:10<00:06, 149157.46itBuilding dataset for timeline analysis:  59%|█████▎   | 1346599/2299714 [00:10<00:06, 148690.15itBuilding dataset for timeline analysis:  59%|█████▎   | 1361733/2299714 [00:10<00:06, 148514.30itBuilding dataset for timeline analysis:  60%|█████▍   | 1376866/2299714 [00:10<00:06, 148321.68itBuilding dataset for timeline analysis:  61%|█████▍   | 1391999/2299714 [00:10<00:06, 148362.32itBuilding dataset for timeline analysis:  61%|█████▌   | 1407132/2299714 [00:10<00:06, 148257.46itBuilding dataset for timeline analysis:  62%|█████▌   | 1422265/2299714 [00:10<00:05, 148358.79itBuilding dataset for timeline analysis:  63%|█████▋   | 1437398/2299714 [00:10<00:05, 148344.19itBuilding dataset for timeline analysis:  63%|█████▋   | 1452532/2299714 [00:11<00:05, 148427.33itBuilding dataset for timeline analysis:  64%|█████▋   | 1467665/2299714 [00:11<00:05, 148464.26itBuilding dataset for timeline analysis:  64%|█████▊   | 1482798/2299714 [00:11<00:05, 148454.42itBuilding dataset for timeline analysis:  65%|█████▊   | 1497931/2299714 [00:11<00:05, 148303.78itBuilding dataset for timeline analysis:  66%|█████▉   | 1513064/2299714 [00:11<00:05, 148235.75itBuilding dataset for timeline analysis:  66%|█████▉   | 1528198/2299714 [00:11<00:05, 148304.40itBuilding dataset for timeline analysis:  67%|██████   | 1543331/2299714 [00:11<00:05, 148332.09itBuilding dataset for timeline analysis:  68%|██████   | 1558464/2299714 [00:11<00:05, 148194.07itBuilding dataset for timeline analysis:  68%|██████▏  | 1573597/2299714 [00:11<00:04, 148204.75itBuilding dataset for timeline analysis:  69%|██████▏  | 1588730/2299714 [00:11<00:04, 148126.53itBuilding dataset for timeline analysis:  70%|██████▎  | 1603863/2299714 [00:12<00:04, 148187.97itBuilding dataset for timeline analysis:  70%|██████▎  | 1618997/2299714 [00:12<00:04, 148196.89itBuilding dataset for timeline analysis:  71%|██████▍  | 1634130/2299714 [00:12<00:04, 148203.41itBuilding dataset for timeline analysis:  72%|██████▍  | 1649263/2299714 [00:12<00:04, 148265.40itBuilding dataset for timeline analysis:  72%|██████▌  | 1664396/2299714 [00:12<00:04, 148179.52itBuilding dataset for timeline analysis:  73%|██████▌  | 1679529/2299714 [00:12<00:04, 148170.18itBuilding dataset for timeline analysis:  74%|██████▋  | 1694662/2299714 [00:12<00:04, 148087.11itBuilding dataset for timeline analysis:  74%|██████▋  | 1709796/2299714 [00:12<00:03, 148183.84itBuilding dataset for timeline analysis:  75%|██████▊  | 1724929/2299714 [00:12<00:03, 148135.13itBuilding dataset for timeline analysis:  76%|██████▊  | 1740062/2299714 [00:12<00:03, 148094.94itBuilding dataset for timeline analysis:  76%|██████▊  | 1755195/2299714 [00:13<00:03, 148203.00itBuilding dataset for timeline analysis:  77%|██████▉  | 1770328/2299714 [00:13<00:03, 148249.43itBuilding dataset for timeline analysis:  78%|██████▉  | 1785462/2299714 [00:13<00:03, 148300.90itBuilding dataset for timeline analysis:  78%|███████  | 1800595/2299714 [00:13<00:03, 148364.69itBuilding dataset for timeline analysis:  79%|███████  | 1815728/2299714 [00:13<00:03, 148242.28itBuilding dataset for timeline analysis:  80%|███████▏ | 1830861/2299714 [00:13<00:03, 148161.37itBuilding dataset for timeline analysis:  80%|███████▏ | 1845994/2299714 [00:13<00:03, 148111.43itBuilding dataset for timeline analysis:  81%|███████▎ | 1861127/2299714 [00:13<00:02, 148133.41itBuilding dataset for timeline analysis:  82%|███████▎ | 1876261/2299714 [00:13<00:02, 148180.27itBuilding dataset for timeline analysis:  82%|███████▍ | 1891394/2299714 [00:13<00:02, 148109.61itBuilding dataset for timeline analysis:  83%|███████▍ | 1906527/2299714 [00:14<00:02, 148196.88itBuilding dataset for timeline analysis:  84%|███████▌ | 1921660/2299714 [00:14<00:02, 148198.73itBuilding dataset for timeline analysis:  84%|███████▌ | 1936793/2299714 [00:14<00:02, 148214.04itBuilding dataset for timeline analysis:  85%|███████▋ | 1951926/2299714 [00:14<00:02, 148097.56itBuilding dataset for timeline analysis:  86%|███████▋ | 1967060/2299714 [00:14<00:02, 148214.21itBuilding dataset for timeline analysis:  86%|███████▊ | 1982193/2299714 [00:14<00:02, 148258.32itBuilding dataset for timeline analysis:  87%|███████▊ | 1997326/2299714 [00:14<00:02, 148262.62itBuilding dataset for timeline analysis:  88%|███████▉ | 2012459/2299714 [00:14<00:01, 148075.52itBuilding dataset for timeline analysis:  88%|███████▉ | 2027592/2299714 [00:14<00:01, 148117.70itBuilding dataset for timeline analysis:  89%|███████▉ | 2042725/2299714 [00:14<00:01, 148143.40itBuilding dataset for timeline analysis:  89%|████████ | 2057858/2299714 [00:15<00:01, 148100.62itBuilding dataset for timeline analysis:  90%|████████ | 2072992/2299714 [00:15<00:01, 148194.14itBuilding dataset for timeline analysis:  91%|████████▏| 2088125/2299714 [00:15<00:01, 148281.77itBuilding dataset for timeline analysis:  91%|████████▏| 2103258/2299714 [00:15<00:01, 148200.82itBuilding dataset for timeline analysis:  92%|████████▎| 2118391/2299714 [00:15<00:01, 148241.16itBuilding dataset for timeline analysis:  93%|████████▎| 2133524/2299714 [00:15<00:01, 148241.25itBuilding dataset for timeline analysis:  93%|████████▍| 2148657/2299714 [00:15<00:01, 148263.13itBuilding dataset for timeline analysis:  94%|████████▍| 2163791/2299714 [00:15<00:00, 148261.23itBuilding dataset for timeline analysis:  95%|████████▌| 2178924/2299714 [00:15<00:00, 148169.55itBuilding dataset for timeline analysis:  95%|████████▌| 2194057/2299714 [00:16<00:00, 148188.94itBuilding dataset for timeline analysis:  96%|████████▋| 2209190/2299714 [00:16<00:00, 148187.88itBuilding dataset for timeline analysis:  97%|████████▋| 2224323/2299714 [00:16<00:00, 148240.19itBuilding dataset for timeline analysis:  97%|████████▊| 2239456/2299714 [00:16<00:00, 148181.19itBuilding dataset for timeline analysis:  98%|████████▊| 2254590/2299714 [00:16<00:00, 148266.60itBuilding dataset for timeline analysis:  99%|████████▉| 2269599/2299714 [00:16<00:00, 148803.75itBuilding dataset for timeline analysis:  99%|████████▉| 2285282/2299714 [00:16<00:00, 150360.78it                                                                                                 [2025-05-19 18:17:01][INFO] Start analysis OperatorBoundAnalyzer with ProfilingDataset
-[2025-05-19 18:17:46][INFO] Start analysis BlockDimAnalyzer with ProfilingDataset
-[2025-05-19 18:18:27][INFO] Start analysis FusionOPAnalyzer with GraphDataset
-[2025-05-19 18:18:29][INFO] Start analysis AICoreFreqAnalyzer with timeline_event_dataset
-[2025-05-19 18:19:54][INFO] Start analysis DynamicShapeAnalyzer with ProfilingDataset
-[2025-05-19 18:20:37][INFO] Start analysis AicpuAnalyzer with ProfilingDataset
-
-Building dataset for timeline analysis:   0%|             | 4883/2279011 [00:00<01:33, 24397.76itBuilding dataset for timeline analysis:   0%|             | 7323/2279011 [00:00<01:33, 24265.96itBuilding dataset for timeline analysis:   0%|             | 9750/2279011 [00:00<01:33, 24177.84itBuilding dataset for timeline analysis:   1%|            | 12548/2279011 [00:00<01:28, 25527.79itBuilding dataset for timeline analysis:   1%|            | 15911/2279011 [00:00<01:20, 28271.75itBuilding dataset for timeline analysis:   1%|            | 19245/2279011 [00:00<01:15, 29922.30itBuilding dataset for timeline analysis:   1%|            | 22676/2279011 [00:00<01:12, 31312.11itBuilding dataset for timeline analysis:   1%|▏           | 25809/2279011 [00:00<01:12, 30947.54itBuilding dataset for timeline analysis:   1%|▏           | 28906/2279011 [00:01<01:18, 28521.90itBuilding dataset for timeline analysis:   1%|▏           | 31795/2279011 [00:01<01:22, 27136.89itBuilding dataset for timeline analysis:   2%|▏           | 34542/2279011 [00:01<01:25, 26233.38itBuilding dataset for timeline analysis:   2%|▏           | 37428/2279011 [00:01<01:23, 26963.22itBuilding dataset for timeline analysis:   2%|▏           | 40809/2279011 [00:01<01:17, 28909.62itBuilding dataset for timeline analysis:   2%|▏           | 44183/2279011 [00:01<01:13, 30241.05itBuilding dataset for timeline analysis:   2%|▎           | 47583/2279011 [00:01<01:11, 31308.82itBuilding dataset for timeline analysis:   2%|▎           | 50840/2279011 [00:01<01:10, 31640.18itBuilding dataset for timeline analysis:   2%|▎           | 54019/2279011 [00:01<01:11, 30917.69itBuilding dataset for timeline analysis:   3%|▎           | 57124/2279011 [00:01<01:12, 30516.24itBuilding dataset for timeline analysis:   3%|▎           | 60341/2279011 [00:02<01:11, 30996.78itBuilding dataset for timeline analysis:   3%|▎           | 63464/2279011 [00:02<01:11, 31042.37itBuilding dataset for timeline analysis:   3%|▎           | 66591/2279011 [00:02<01:11, 31055.73itBuilding dataset for timeline analysis:   3%|▎           | 69710/2279011 [00:02<01:11, 31091.06itBuilding dataset for timeline analysis:   3%|▍           | 72889/2279011 [00:02<01:10, 31298.16itBuilding dataset for timeline analysis:   3%|▍           | 76090/2279011 [00:02<01:10, 31449.12itBuilding dataset for timeline analysis:   3%|▍           | 79237/2279011 [00:02<01:10, 31305.05itBuilding dataset for timeline analysis:   4%|▍           | 82369/2279011 [00:02<01:10, 31130.88itBuilding dataset for timeline analysis:   4%|▍           | 85490/2279011 [00:02<01:10, 31104.91itBuilding dataset for timeline analysis:   4%|▍           | 89106/2279011 [00:02<01:07, 32608.45itBuilding dataset for timeline analysis:   4%|▍           | 93026/2279011 [00:03<01:03, 34573.34itBuilding dataset for timeline analysis:   4%|▌           | 96837/2279011 [00:03<01:01, 35572.97itBuilding dataset for timeline analysis:   4%|▍          | 100751/2279011 [00:03<00:59, 36637.88itBuilding dataset for timeline analysis:   5%|▌          | 104688/2279011 [00:03<00:58, 37452.98itBuilding dataset for timeline analysis:   5%|▌          | 108620/2279011 [00:03<00:57, 38001.37itBuilding dataset for timeline analysis:   5%|▌          | 112422/2279011 [00:03<00:57, 37993.80itBuilding dataset for timeline analysis:   5%|▌          | 116343/2279011 [00:03<00:56, 38357.43itBuilding dataset for timeline analysis:   5%|▌          | 120276/2279011 [00:03<00:55, 38648.36itBuilding dataset for timeline analysis:   5%|▌          | 124142/2279011 [00:03<00:55, 38548.07itBuilding dataset for timeline analysis:   6%|▌          | 128101/2279011 [00:03<00:55, 38838.00itBuilding dataset for timeline analysis:   6%|▋          | 131986/2279011 [00:04<00:55, 38739.38itBuilding dataset for timeline analysis:   6%|▋          | 135861/2279011 [00:04<00:55, 38650.20itBuilding dataset for timeline analysis:   6%|▋          | 139796/2279011 [00:04<00:55, 38652.57itBuilding dataset for timeline analysis:   6%|▋          | 143769/2279011 [00:04<00:54, 38972.08itBuilding dataset for timeline analysis:   6%|▋          | 147667/2279011 [00:04<00:54, 38836.40itBuilding dataset for timeline analysis:   7%|▋          | 151551/2279011 [00:04<00:54, 38712.43itBuilding dataset for timeline analysis:   7%|▊          | 155423/2279011 [00:04<00:54, 38613.37itBuilding dataset for timeline analysis:   7%|▊          | 159285/2279011 [00:04<00:55, 38251.99itBuilding dataset for timeline analysis:   7%|▊          | 163111/2279011 [00:04<00:55, 37891.96itBuilding dataset for timeline analysis:   7%|▊          | 166902/2279011 [00:05<00:56, 37194.12itBuilding dataset for timeline analysis:   7%|▊          | 170624/2279011 [00:05<00:57, 36712.50itBuilding dataset for timeline analysis:   8%|▊          | 174298/2279011 [00:05<00:57, 36308.17itBuilding dataset for timeline analysis:   8%|▊          | 177931/2279011 [00:05<00:57, 36267.10itBuilding dataset for timeline analysis:   8%|▉          | 181559/2279011 [00:05<00:58, 36141.58itBuilding dataset for timeline analysis:   8%|▉          | 185174/2279011 [00:05<00:58, 35999.41itBuilding dataset for timeline analysis:   8%|▉          | 188775/2279011 [00:05<00:58, 35861.90itBuilding dataset for timeline analysis:   8%|▉          | 192437/2279011 [00:05<00:57, 36084.20itBuilding dataset for timeline analysis:   9%|▉          | 196046/2279011 [00:05<00:57, 35946.41itBuilding dataset for timeline analysis:   9%|▉          | 199641/2279011 [00:05<00:58, 35801.03itBuilding dataset for timeline analysis:   9%|▉          | 203222/2279011 [00:06<00:58, 35663.83itBuilding dataset for timeline analysis:   9%|▉          | 206872/2279011 [00:06<00:58, 35655.08itBuilding dataset for timeline analysis:   9%|█          | 210541/2279011 [00:06<00:57, 35940.19itBuilding dataset for timeline analysis:   9%|█          | 214136/2279011 [00:06<00:57, 35870.79itBuilding dataset for timeline analysis:  10%|█          | 217724/2279011 [00:06<00:57, 35760.78itBuilding dataset for timeline analysis:  10%|█          | 221301/2279011 [00:06<00:57, 35711.69itBuilding dataset for timeline analysis:  10%|█          | 224873/2279011 [00:06<00:57, 35610.54itBuilding dataset for timeline analysis:  10%|█          | 228482/2279011 [00:06<00:57, 35582.97itBuilding dataset for timeline analysis:  10%|█          | 232113/2279011 [00:06<00:57, 35628.69itBuilding dataset for timeline analysis:  10%|█▏         | 235696/2279011 [00:06<00:57, 35687.86itBuilding dataset for timeline analysis:  11%|█▏         | 239325/2279011 [00:07<00:57, 35656.16itBuilding dataset for timeline analysis:  11%|█▏         | 242976/2279011 [00:07<00:56, 35908.04itBuilding dataset for timeline analysis:  11%|█▏         | 246568/2279011 [00:07<00:56, 35868.55itBuilding dataset for timeline analysis:  11%|█▏         | 250156/2279011 [00:07<00:56, 35804.15itBuilding dataset for timeline analysis:  11%|█▏         | 253737/2279011 [00:07<00:56, 35670.53itBuilding dataset for timeline analysis:  11%|█▏         | 257305/2279011 [00:07<00:56, 35522.62itBuilding dataset for timeline analysis:  11%|█▎         | 260858/2279011 [00:07<00:56, 35443.05itBuilding dataset for timeline analysis:  12%|█▎         | 264486/2279011 [00:07<00:56, 35680.13itBuilding dataset for timeline analysis:  12%|█▎         | 268055/2279011 [00:07<00:56, 35592.85itBuilding dataset for timeline analysis:  12%|█▎         | 271615/2279011 [00:07<00:56, 35530.18itBuilding dataset for timeline analysis:  12%|█▎         | 275169/2279011 [00:08<00:56, 35430.33itBuilding dataset for timeline analysis:  12%|█▎         | 278794/2279011 [00:08<00:56, 35673.02itBuilding dataset for timeline analysis:  12%|█▎         | 282362/2279011 [00:08<00:56, 35535.94itBuilding dataset for timeline analysis:  13%|█▍         | 285932/2279011 [00:08<00:56, 35436.40itBuilding dataset for timeline analysis:  13%|█▍         | 289520/2279011 [00:08<00:55, 35566.57itBuilding dataset for timeline analysis:  13%|█▍         | 293077/2279011 [00:08<00:56, 35399.48itBuilding dataset for timeline analysis:  13%|█▍         | 296673/2279011 [00:08<00:55, 35564.30itBuilding dataset for timeline analysis:  13%|█▍         | 300230/2279011 [00:08<00:55, 35386.38itBuilding dataset for timeline analysis:  13%|█▍         | 303838/2279011 [00:08<00:55, 35592.09itBuilding dataset for timeline analysis:  13%|█▍         | 307398/2279011 [00:08<00:55, 35452.61itBuilding dataset for timeline analysis:  14%|█▌         | 310944/2279011 [00:09<00:55, 35383.42itBuilding dataset for timeline analysis:  14%|█▌         | 314517/2279011 [00:09<00:55, 35486.18itBuilding dataset for timeline analysis:  14%|█▌         | 318082/2279011 [00:09<00:55, 35301.76itBuilding dataset for timeline analysis:  14%|█▌         | 321666/2279011 [00:09<00:55, 35461.54itBuilding dataset for timeline analysis:  14%|█▌         | 325213/2279011 [00:09<00:55, 35184.81itBuilding dataset for timeline analysis:  14%|█▌         | 328752/2279011 [00:09<00:55, 35105.52itBuilding dataset for timeline analysis:  15%|█▌         | 332310/2279011 [00:09<00:55, 35106.59itBuilding dataset for timeline analysis:  15%|█▌         | 335908/2279011 [00:09<00:54, 35364.40itBuilding dataset for timeline analysis:  15%|█▋         | 339445/2279011 [00:09<00:54, 35288.92itBuilding dataset for timeline analysis:  15%|█▋         | 342975/2279011 [00:09<00:54, 35229.95itBuilding dataset for timeline analysis:  15%|█▋         | 346794/2279011 [00:10<00:53, 36112.28itBuilding dataset for timeline analysis:  15%|█▋         | 350831/2279011 [00:10<00:51, 37384.12itBuilding dataset for timeline analysis:  16%|█▋         | 354872/2279011 [00:10<00:50, 38287.24itBuilding dataset for timeline analysis:  16%|█▋         | 358752/2279011 [00:10<00:49, 38439.79itBuilding dataset for timeline analysis:  16%|█▊         | 362692/2279011 [00:10<00:49, 38725.56itBuilding dataset for timeline analysis:  16%|█▊         | 366604/2279011 [00:10<00:49, 38841.73itBuilding dataset for timeline analysis:  16%|█▊         | 370545/2279011 [00:10<00:48, 39010.90itBuilding dataset for timeline analysis:  16%|█▊         | 374482/2279011 [00:10<00:48, 39117.46itBuilding dataset for timeline analysis:  17%|█▊         | 378444/2279011 [00:10<00:48, 39266.12itBuilding dataset for timeline analysis:  17%|█▊         | 382414/2279011 [00:10<00:48, 39393.78itBuilding dataset for timeline analysis:  17%|█▊         | 386379/2279011 [00:11<00:47, 39468.41itBuilding dataset for timeline analysis:  17%|█▉         | 390331/2279011 [00:11<00:48, 39116.59itBuilding dataset for timeline analysis:  17%|█▉         | 394244/2279011 [00:11<00:49, 38397.58itBuilding dataset for timeline analysis:  17%|█▉         | 398087/2279011 [00:11<00:55, 33675.36itBuilding dataset for timeline analysis:  18%|█▉         | 401558/2279011 [00:11<01:00, 31217.59itBuilding dataset for timeline analysis:  18%|█▉         | 404774/2279011 [00:11<01:01, 30246.03itBuilding dataset for timeline analysis:  18%|█▉         | 408239/2279011 [00:11<00:59, 31409.35itBuilding dataset for timeline analysis:  18%|█▉         | 411575/2279011 [00:11<00:58, 31942.39itBuilding dataset for timeline analysis:  18%|██         | 415000/2279011 [00:11<00:57, 32590.31itBuilding dataset for timeline analysis:  18%|██         | 418326/2279011 [00:12<00:56, 32780.66itBuilding dataset for timeline analysis:  19%|██         | 421787/2279011 [00:12<00:55, 33311.47itBuilding dataset for timeline analysis:  19%|██         | 425139/2279011 [00:12<00:55, 33342.77itBuilding dataset for timeline analysis:  19%|██         | 428600/2279011 [00:12<00:55, 33507.89itBuilding dataset for timeline analysis:  19%|██         | 432044/2279011 [00:12<00:54, 33780.87itBuilding dataset for timeline analysis:  19%|██         | 435512/2279011 [00:12<00:54, 33941.62itBuilding dataset for timeline analysis:  19%|██         | 439020/2279011 [00:12<00:53, 34277.71itBuilding dataset for timeline analysis:  19%|██▏        | 442542/2279011 [00:12<00:53, 34346.70itBuilding dataset for timeline analysis:  20%|██▏        | 446048/2279011 [00:12<00:53, 34556.71itBuilding dataset for timeline analysis:  20%|██▏        | 449841/2279011 [00:12<00:51, 35561.17itBuilding dataset for timeline analysis:  20%|██▏        | 453795/2279011 [00:13<00:49, 36747.90itBuilding dataset for timeline analysis:  20%|██▏        | 457740/2279011 [00:13<00:48, 37529.77itBuilding dataset for timeline analysis:  20%|██▏        | 461573/2279011 [00:13<00:48, 37660.77itBuilding dataset for timeline analysis:  20%|██▏        | 465438/2279011 [00:13<00:47, 37883.13itBuilding dataset for timeline analysis:  21%|██▎        | 469343/2279011 [00:13<00:47, 38230.62itBuilding dataset for timeline analysis:  21%|██▎        | 473167/2279011 [00:13<00:48, 37245.10itBuilding dataset for timeline analysis:  21%|██▎        | 476898/2279011 [00:13<00:50, 36041.92itBuilding dataset for timeline analysis:  21%|██▎        | 480513/2279011 [00:13<00:51, 34781.96itBuilding dataset for timeline analysis:  21%|██▎        | 484005/2279011 [00:13<00:52, 34381.74itBuilding dataset for timeline analysis:  21%|██▎        | 487452/2279011 [00:14<00:53, 33738.99itBuilding dataset for timeline analysis:  22%|██▎        | 490832/2279011 [00:14<00:53, 33514.72itBuilding dataset for timeline analysis:  22%|██▍        | 494187/2279011 [00:14<00:53, 33064.28itBuilding dataset for timeline analysis:  22%|██▍        | 497496/2279011 [00:14<00:54, 32964.57itBuilding dataset for timeline analysis:  22%|██▍        | 500794/2279011 [00:14<00:54, 32853.96itBuilding dataset for timeline analysis:  22%|██▍        | 504081/2279011 [00:14<00:54, 32778.05itBuilding dataset for timeline analysis:  22%|██▍        | 507567/2279011 [00:14<00:53, 33390.11itBuilding dataset for timeline analysis:  22%|██▍        | 511616/2279011 [00:14<00:49, 35492.73itBuilding dataset for timeline analysis:  23%|██▍        | 515670/2279011 [00:14<00:47, 36993.17itBuilding dataset for timeline analysis:  23%|██▌        | 519738/2279011 [00:14<00:46, 38091.95itBuilding dataset for timeline analysis:  23%|██▌        | 523645/2279011 [00:15<00:45, 38382.88itBuilding dataset for timeline analysis:  23%|██▌        | 527584/2279011 [00:15<00:45, 38681.64itBuilding dataset for timeline analysis:  23%|██▌        | 531511/2279011 [00:15<00:44, 38855.43itBuilding dataset for timeline analysis:  23%|██▌        | 535464/2279011 [00:15<00:44, 39056.41itBuilding dataset for timeline analysis:  24%|██▌        | 539377/2279011 [00:15<00:44, 39077.92itBuilding dataset for timeline analysis:  24%|██▌        | 543286/2279011 [00:15<00:44, 39019.89itBuilding dataset for timeline analysis:  24%|██▋        | 547189/2279011 [00:15<00:44, 38998.34itBuilding dataset for timeline analysis:  24%|██▋        | 551090/2279011 [00:15<00:44, 38895.52itBuilding dataset for timeline analysis:  24%|██▋        | 554995/2279011 [00:15<00:44, 38940.71itBuilding dataset for timeline analysis:  25%|██▋        | 558895/2279011 [00:15<00:44, 38957.52itBuilding dataset for timeline analysis:  25%|██▋        | 562791/2279011 [00:16<00:44, 38932.75itBuilding dataset for timeline analysis:  25%|██▋        | 566694/2279011 [00:16<00:43, 38961.17itBuilding dataset for timeline analysis:  25%|██▊        | 570591/2279011 [00:16<00:43, 38953.92itBuilding dataset for timeline analysis:  25%|██▊        | 574487/2279011 [00:16<00:43, 38952.27itBuilding dataset for timeline analysis:  25%|██▊        | 578383/2279011 [00:16<00:43, 38914.24itBuilding dataset for timeline analysis:  26%|██▊        | 582276/2279011 [00:16<00:43, 38917.00itBuilding dataset for timeline analysis:  26%|██▊        | 586168/2279011 [00:16<00:43, 38760.06itBuilding dataset for timeline analysis:  26%|██▊        | 590045/2279011 [00:16<00:44, 38304.41itBuilding dataset for timeline analysis:  26%|██▊        | 593925/2279011 [00:16<00:43, 38450.72itBuilding dataset for timeline analysis:  26%|██▉        | 597802/2279011 [00:16<00:43, 38544.12itBuilding dataset for timeline analysis:  26%|██▉        | 601844/2279011 [00:17<00:42, 39101.78itBuilding dataset for timeline analysis:  27%|██▉        | 605894/2279011 [00:17<00:42, 39517.31itBuilding dataset for timeline analysis:  27%|██▉        | 609925/2279011 [00:17<00:41, 39753.02itBuilding dataset for timeline analysis:  27%|██▉        | 613973/2279011 [00:17<00:41, 39968.94itBuilding dataset for timeline analysis:  27%|██▉        | 618016/2279011 [00:17<00:41, 40105.90itBuilding dataset for timeline analysis:  27%|███        | 622051/2279011 [00:17<00:41, 40176.60itBuilding dataset for timeline analysis:  27%|███        | 626086/2279011 [00:17<00:41, 40226.07itBuilding dataset for timeline analysis:  28%|███        | 630109/2279011 [00:17<00:41, 39858.89itBuilding dataset for timeline analysis:  28%|███        | 634145/2279011 [00:17<00:41, 40006.59itBuilding dataset for timeline analysis:  28%|███        | 638189/2279011 [00:17<00:40, 40135.06itBuilding dataset for timeline analysis:  28%|███        | 642222/2279011 [00:18<00:40, 40190.72itBuilding dataset for timeline analysis:  28%|███        | 646242/2279011 [00:18<00:41, 39682.54itBuilding dataset for timeline analysis:  29%|███▏       | 650254/2279011 [00:18<00:40, 39811.78itBuilding dataset for timeline analysis:  29%|███▏       | 654267/2279011 [00:18<00:40, 39905.18itBuilding dataset for timeline analysis:  29%|███▏       | 658275/2279011 [00:18<00:40, 39956.57itBuilding dataset for timeline analysis:  29%|███▏       | 662290/2279011 [00:18<00:40, 40013.51itBuilding dataset for timeline analysis:  29%|███▏       | 666292/2279011 [00:18<00:40, 40005.39itBuilding dataset for timeline analysis:  29%|███▏       | 670308/2279011 [00:18<00:40, 40049.89itBuilding dataset for timeline analysis:  30%|███▎       | 674317/2279011 [00:18<00:40, 40060.60itBuilding dataset for timeline analysis:  30%|███▎       | 678336/2279011 [00:18<00:39, 40096.81itBuilding dataset for timeline analysis:  30%|███▎       | 682348/2279011 [00:19<00:39, 40102.77itBuilding dataset for timeline analysis:  30%|███▎       | 686367/2279011 [00:19<00:39, 40127.76itBuilding dataset for timeline analysis:  30%|███▎       | 690380/2279011 [00:19<00:40, 39712.74itBuilding dataset for timeline analysis:  30%|███▎       | 694395/2279011 [00:19<00:39, 39840.42itBuilding dataset for timeline analysis:  31%|███▎       | 698398/2279011 [00:19<00:39, 39896.38itBuilding dataset for timeline analysis:  31%|███▍       | 702406/2279011 [00:19<00:39, 39949.25itBuilding dataset for timeline analysis:  31%|███▍       | 706417/2279011 [00:19<00:39, 39996.39itBuilding dataset for timeline analysis:  31%|███▍       | 710434/2279011 [00:19<00:39, 40047.87itBuilding dataset for timeline analysis:  31%|███▍       | 714448/2279011 [00:19<00:39, 40074.31itBuilding dataset for timeline analysis:  32%|███▍       | 718463/2279011 [00:19<00:38, 40096.35itBuilding dataset for timeline analysis:  32%|███▍       | 722473/2279011 [00:20<00:38, 40084.56itBuilding dataset for timeline analysis:  32%|███▌       | 726488/2279011 [00:20<00:38, 40103.62itBuilding dataset for timeline analysis:  32%|███▌       | 730499/2279011 [00:20<00:38, 40101.27itBuilding dataset for timeline analysis:  32%|███▌       | 734520/2279011 [00:20<00:38, 40133.23itBuilding dataset for timeline analysis:  32%|███▌       | 738536/2279011 [00:20<00:38, 40140.29itBuilding dataset for timeline analysis:  33%|███▌       | 742551/2279011 [00:20<00:38, 39917.40itBuilding dataset for timeline analysis:  33%|███▌       | 746544/2279011 [00:20<00:38, 39901.08itBuilding dataset for timeline analysis:  33%|███▌       | 750556/2279011 [00:20<00:38, 39965.76itBuilding dataset for timeline analysis:  33%|███▋       | 754564/2279011 [00:20<00:38, 39997.88itBuilding dataset for timeline analysis:  33%|███▋       | 758564/2279011 [00:20<00:38, 39601.38itBuilding dataset for timeline analysis:  33%|███▋       | 762574/2279011 [00:21<00:38, 39747.65itBuilding dataset for timeline analysis:  34%|███▋       | 766581/2279011 [00:21<00:37, 39842.73itBuilding dataset for timeline analysis:  34%|███▋       | 770582/2279011 [00:21<00:37, 39891.30itBuilding dataset for timeline analysis:  34%|███▋       | 774600/2279011 [00:21<00:37, 39975.05itBuilding dataset for timeline analysis:  34%|███▊       | 778613/2279011 [00:21<00:37, 40020.42itBuilding dataset for timeline analysis:  34%|███▊       | 782619/2279011 [00:21<00:37, 40031.63itBuilding dataset for timeline analysis:  35%|███▊       | 786623/2279011 [00:21<00:37, 40021.08itBuilding dataset for timeline analysis:  35%|███▊       | 790635/2279011 [00:21<00:37, 40049.83itBuilding dataset for timeline analysis:  35%|███▊       | 794641/2279011 [00:21<00:37, 40020.48itBuilding dataset for timeline analysis:  35%|███▊       | 798645/2279011 [00:21<00:36, 40023.94itBuilding dataset for timeline analysis:  35%|███▊       | 802648/2279011 [00:22<00:36, 40013.27itBuilding dataset for timeline analysis:  35%|███▉       | 806650/2279011 [00:22<00:36, 40010.47itBuilding dataset for timeline analysis:  36%|███▉       | 810652/2279011 [00:22<00:36, 40009.36itBuilding dataset for timeline analysis:  36%|███▉       | 814654/2279011 [00:22<00:36, 40011.79itBuilding dataset for timeline analysis:  36%|███▉       | 818656/2279011 [00:22<00:36, 40008.14itBuilding dataset for timeline analysis:  36%|███▉       | 822657/2279011 [00:22<00:36, 40003.30itBuilding dataset for timeline analysis:  36%|███▉       | 826658/2279011 [00:22<00:36, 39990.83itBuilding dataset for timeline analysis:  36%|████       | 830658/2279011 [00:22<00:36, 39579.49itBuilding dataset for timeline analysis:  37%|████       | 834630/2279011 [00:22<00:36, 39458.13itBuilding dataset for timeline analysis:  37%|████       | 838610/2279011 [00:22<00:36, 39559.24itBuilding dataset for timeline analysis:  37%|████       | 842593/2279011 [00:23<00:36, 39639.33itBuilding dataset for timeline analysis:  37%|████       | 846583/2279011 [00:23<00:36, 39716.01itBuilding dataset for timeline analysis:  37%|████       | 850568/2279011 [00:23<00:35, 39753.78itBuilding dataset for timeline analysis:  37%|████       | 854562/2279011 [00:23<00:35, 39808.46itBuilding dataset for timeline analysis:  38%|████▏      | 858556/2279011 [00:23<00:35, 39846.17itBuilding dataset for timeline analysis:  38%|████▏      | 862544/2279011 [00:23<00:35, 39854.95itBuilding dataset for timeline analysis:  38%|████▏      | 866530/2279011 [00:23<00:35, 39850.70itBuilding dataset for timeline analysis:  38%|████▏      | 870526/2279011 [00:23<00:35, 39881.91itBuilding dataset for timeline analysis:  38%|████▏      | 874517/2279011 [00:23<00:35, 39888.09itBuilding dataset for timeline analysis:  39%|████▏      | 878519/2279011 [00:23<00:35, 39926.15itBuilding dataset for timeline analysis:  39%|████▎      | 882512/2279011 [00:24<00:34, 39919.29itBuilding dataset for timeline analysis:  39%|████▎      | 886511/2279011 [00:24<00:34, 39939.74itBuilding dataset for timeline analysis:  39%|████▎      | 890511/2279011 [00:24<00:34, 39956.42itBuilding dataset for timeline analysis:  39%|████▎      | 894511/2279011 [00:24<00:34, 39968.08itBuilding dataset for timeline analysis:  39%|████▎      | 898508/2279011 [00:24<00:34, 39957.46itBuilding dataset for timeline analysis:  40%|████▎      | 902512/2279011 [00:24<00:34, 39979.86itBuilding dataset for timeline analysis:  40%|████▍      | 906510/2279011 [00:24<00:34, 39975.37itBuilding dataset for timeline analysis:  40%|████▍      | 910508/2279011 [00:24<00:34, 39955.20itBuilding dataset for timeline analysis:  40%|████▍      | 914504/2279011 [00:24<00:34, 39946.08itBuilding dataset for timeline analysis:  40%|████▍      | 918499/2279011 [00:24<00:34, 39921.64itBuilding dataset for timeline analysis:  40%|████▍      | 922492/2279011 [00:25<00:34, 39887.53itBuilding dataset for timeline analysis:  41%|████▍      | 926486/2279011 [00:25<00:33, 39901.47itBuilding dataset for timeline analysis:  41%|████▍      | 930477/2279011 [00:25<00:33, 39879.87itBuilding dataset for timeline analysis:  41%|████▌      | 934465/2279011 [00:25<00:34, 39195.17itBuilding dataset for timeline analysis:  41%|████▌      | 938428/2279011 [00:25<00:34, 39323.46itBuilding dataset for timeline analysis:  41%|████▌      | 942363/2279011 [00:25<00:34, 38851.69itBuilding dataset for timeline analysis:  42%|████▌      | 946322/2279011 [00:25<00:34, 39069.44itBuilding dataset for timeline analysis:  42%|████▌      | 950300/2279011 [00:25<00:33, 39279.41itBuilding dataset for timeline analysis:  42%|████▌      | 954289/2279011 [00:25<00:33, 39458.70itBuilding dataset for timeline analysis:  42%|████▋      | 958263/2279011 [00:25<00:33, 39540.78itBuilding dataset for timeline analysis:  42%|████▋      | 962235/2279011 [00:26<00:33, 39592.89itBuilding dataset for timeline analysis:  42%|████▋      | 966210/2279011 [00:26<00:33, 39638.58itBuilding dataset for timeline analysis:  43%|████▋      | 970190/2279011 [00:26<00:32, 39686.00itBuilding dataset for timeline analysis:  43%|████▋      | 974169/2279011 [00:26<00:32, 39716.74itBuilding dataset for timeline analysis:  43%|████▋      | 978151/2279011 [00:26<00:32, 39747.02itBuilding dataset for timeline analysis:  43%|████▋      | 982134/2279011 [00:26<00:32, 39769.69itBuilding dataset for timeline analysis:  43%|████▊      | 986112/2279011 [00:26<00:32, 39758.24itBuilding dataset for timeline analysis:  43%|████▊      | 990089/2279011 [00:26<00:32, 39759.11itBuilding dataset for timeline analysis:  44%|████▊      | 994065/2279011 [00:26<00:32, 39753.05itBuilding dataset for timeline analysis:  44%|████▊      | 998041/2279011 [00:26<00:32, 39750.80itBuilding dataset for timeline analysis:  44%|████▍     | 1002017/2279011 [00:27<00:32, 39730.81itBuilding dataset for timeline analysis:  44%|████▍     | 1005991/2279011 [00:27<00:32, 39728.92itBuilding dataset for timeline analysis:  44%|████▍     | 1009964/2279011 [00:27<00:31, 39714.49itBuilding dataset for timeline analysis:  44%|████▍     | 1013936/2279011 [00:27<00:31, 39712.12itBuilding dataset for timeline analysis:  45%|████▍     | 1017908/2279011 [00:27<00:31, 39711.74itBuilding dataset for timeline analysis:  45%|████▍     | 1021880/2279011 [00:27<00:31, 39696.83itBuilding dataset for timeline analysis:  45%|████▌     | 1025850/2279011 [00:27<00:31, 39686.45itBuilding dataset for timeline analysis:  45%|████▌     | 1029820/2279011 [00:27<00:31, 39688.54itBuilding dataset for timeline analysis:  45%|████▌     | 1033789/2279011 [00:27<00:31, 39678.60itBuilding dataset for timeline analysis:  46%|████▌     | 1037761/2279011 [00:27<00:31, 39688.45itBuilding dataset for timeline analysis:  46%|████▌     | 1041730/2279011 [00:28<00:31, 39668.19itBuilding dataset for timeline analysis:  46%|████▌     | 1045699/2279011 [00:28<00:31, 39672.13itBuilding dataset for timeline analysis:  46%|████▌     | 1049669/2279011 [00:28<00:30, 39678.17itBuilding dataset for timeline analysis:  46%|████▌     | 1053643/2279011 [00:28<00:30, 39694.63itBuilding dataset for timeline analysis:  46%|████▋     | 1057613/2279011 [00:28<00:30, 39681.10itBuilding dataset for timeline analysis:  47%|████▋     | 1061582/2279011 [00:28<00:30, 39677.37itBuilding dataset for timeline analysis:  47%|████▋     | 1065550/2279011 [00:28<00:30, 39652.77itBuilding dataset for timeline analysis:  47%|████▋     | 1069521/2279011 [00:28<00:30, 39667.67itBuilding dataset for timeline analysis:  47%|████▋     | 1073488/2279011 [00:28<00:30, 39654.69itBuilding dataset for timeline analysis:  47%|████▋     | 1077454/2279011 [00:28<00:30, 39650.00itBuilding dataset for timeline analysis:  47%|████▋     | 1081420/2279011 [00:29<00:30, 39645.61itBuilding dataset for timeline analysis:  48%|████▊     | 1085391/2279011 [00:29<00:30, 39663.97itBuilding dataset for timeline analysis:  48%|████▊     | 1089360/2279011 [00:29<00:29, 39669.97itBuilding dataset for timeline analysis:  48%|████▊     | 1093327/2279011 [00:29<00:29, 39658.99itBuilding dataset for timeline analysis:  48%|████▊     | 1097293/2279011 [00:29<00:29, 39610.11itBuilding dataset for timeline analysis:  48%|████▊     | 1101255/2279011 [00:29<00:29, 39598.32itBuilding dataset for timeline analysis:  48%|████▊     | 1105215/2279011 [00:29<00:29, 39589.95itBuilding dataset for timeline analysis:  49%|████▊     | 1109176/2279011 [00:29<00:29, 39595.04itBuilding dataset for timeline analysis:  49%|████▉     | 1113137/2279011 [00:29<00:29, 39597.10itBuilding dataset for timeline analysis:  49%|████▉     | 1117103/2279011 [00:29<00:29, 39614.33itBuilding dataset for timeline analysis:  49%|████▉     | 1121065/2279011 [00:30<00:29, 39597.30itBuilding dataset for timeline analysis:  49%|████▉     | 1125031/2279011 [00:30<00:29, 39613.82itBuilding dataset for timeline analysis:  50%|████▉     | 1128999/2279011 [00:30<00:29, 39631.83itBuilding dataset for timeline analysis:  50%|████▉     | 1132973/2279011 [00:30<00:28, 39658.27itBuilding dataset for timeline analysis:  50%|████▉     | 1136942/2279011 [00:30<00:28, 39665.76itBuilding dataset for timeline analysis:  50%|█████     | 1140913/2279011 [00:30<00:28, 39677.67itBuilding dataset for timeline analysis:  50%|█████     | 1144881/2279011 [00:30<00:28, 39656.09itBuilding dataset for timeline analysis:  50%|█████     | 1148847/2279011 [00:30<00:28, 39652.80itBuilding dataset for timeline analysis:  51%|█████     | 1152813/2279011 [00:30<00:28, 39637.37itBuilding dataset for timeline analysis:  51%|█████     | 1156777/2279011 [00:30<00:28, 39625.06itBuilding dataset for timeline analysis:  51%|█████     | 1160740/2279011 [00:31<00:28, 39594.77itBuilding dataset for timeline analysis:  51%|█████     | 1164702/2279011 [00:31<00:28, 39601.83itBuilding dataset for timeline analysis:  51%|█████▏    | 1168663/2279011 [00:31<00:28, 39563.63itBuilding dataset for timeline analysis:  51%|█████▏    | 1172622/2279011 [00:31<00:27, 39568.97itBuilding dataset for timeline analysis:  52%|█████▏    | 1176579/2279011 [00:31<00:27, 39547.36itBuilding dataset for timeline analysis:  52%|█████▏    | 1180534/2279011 [00:31<00:27, 39531.02itBuilding dataset for timeline analysis:  52%|█████▏    | 1184488/2279011 [00:31<00:27, 39492.49itBuilding dataset for timeline analysis:  52%|█████▏    | 1188438/2279011 [00:31<00:27, 39028.43itBuilding dataset for timeline analysis:  52%|█████▏    | 1192367/2279011 [00:31<00:27, 39105.74itBuilding dataset for timeline analysis:  52%|█████▏    | 1196310/2279011 [00:31<00:27, 39201.39itBuilding dataset for timeline analysis:  53%|█████▎    | 1200247/2279011 [00:32<00:27, 39249.32itBuilding dataset for timeline analysis:  53%|█████▎    | 1204193/2279011 [00:32<00:27, 39310.68itBuilding dataset for timeline analysis:  53%|█████▎    | 1208135/2279011 [00:32<00:27, 39342.40itBuilding dataset for timeline analysis:  53%|█████▎    | 1212070/2279011 [00:32<00:27, 39308.92itBuilding dataset for timeline analysis:  53%|█████▎    | 1216002/2279011 [00:32<00:27, 39296.23itBuilding dataset for timeline analysis:  54%|█████▎    | 1219932/2279011 [00:32<00:27, 38855.31itBuilding dataset for timeline analysis:  54%|█████▎    | 1223819/2279011 [00:32<00:28, 37408.33itBuilding dataset for timeline analysis:  54%|█████▍    | 1227729/2279011 [00:32<00:27, 37868.52itBuilding dataset for timeline analysis:  54%|█████▍    | 1231526/2279011 [00:32<00:27, 37824.27itBuilding dataset for timeline analysis:  54%|█████▍    | 1235315/2279011 [00:32<00:27, 37751.39itBuilding dataset for timeline analysis:  54%|█████▍    | 1239244/2279011 [00:33<00:27, 38203.95itBuilding dataset for timeline analysis:  55%|█████▍    | 1243069/2279011 [00:33<00:27, 38054.80itBuilding dataset for timeline analysis:  55%|█████▍    | 1246898/2279011 [00:33<00:27, 37948.50itBuilding dataset for timeline analysis:  55%|█████▍    | 1250839/2279011 [00:33<00:26, 38379.91itBuilding dataset for timeline analysis:  55%|█████▌    | 1254679/2279011 [00:33<00:26, 38192.63itBuilding dataset for timeline analysis:  55%|█████▌    | 1258500/2279011 [00:33<00:26, 38033.38itBuilding dataset for timeline analysis:  55%|█████▌    | 1262432/2279011 [00:33<00:26, 38414.82itBuilding dataset for timeline analysis:  56%|█████▌    | 1266275/2279011 [00:33<00:26, 38181.35itBuilding dataset for timeline analysis:  56%|█████▌    | 1270103/2279011 [00:33<00:26, 38021.55itBuilding dataset for timeline analysis:  56%|█████▌    | 1274037/2279011 [00:34<00:26, 38410.75itBuilding dataset for timeline analysis:  56%|█████▌    | 1277879/2279011 [00:34<00:26, 38189.40itBuilding dataset for timeline analysis:  56%|█████▌    | 1281705/2279011 [00:34<00:26, 38045.80itBuilding dataset for timeline analysis:  56%|█████▋    | 1285637/2279011 [00:34<00:25, 38422.34itBuilding dataset for timeline analysis:  57%|█████▋    | 1289480/2279011 [00:34<00:25, 38221.37itBuilding dataset for timeline analysis:  57%|█████▋    | 1293307/2279011 [00:34<00:25, 38062.40itBuilding dataset for timeline analysis:  57%|█████▋    | 1297240/2279011 [00:34<00:25, 38438.44itBuilding dataset for timeline analysis:  57%|█████▋    | 1301085/2279011 [00:34<00:25, 38212.86itBuilding dataset for timeline analysis:  57%|█████▋    | 1304909/2279011 [00:34<00:25, 38063.64itBuilding dataset for timeline analysis:  57%|█████▋    | 1308842/2279011 [00:34<00:25, 38438.87itBuilding dataset for timeline analysis:  58%|█████▊    | 1312687/2279011 [00:35<00:25, 38216.36itBuilding dataset for timeline analysis:  58%|█████▊    | 1316511/2279011 [00:35<00:25, 38052.61itBuilding dataset for timeline analysis:  58%|█████▊    | 1320440/2279011 [00:35<00:24, 38419.18itBuilding dataset for timeline analysis:  58%|█████▊    | 1324283/2279011 [00:35<00:24, 38193.09itBuilding dataset for timeline analysis:  58%|█████▊    | 1328113/2279011 [00:35<00:24, 38042.82itBuilding dataset for timeline analysis:  58%|█████▊    | 1332036/2279011 [00:35<00:24, 38394.92itBuilding dataset for timeline analysis:  59%|█████▊    | 1335877/2279011 [00:35<00:24, 38181.83itBuilding dataset for timeline analysis:  59%|█████▉    | 1339696/2279011 [00:35<00:24, 37875.97itBuilding dataset for timeline analysis:  59%|█████▉    | 1343485/2279011 [00:35<00:24, 37773.12itBuilding dataset for timeline analysis:  59%|█████▉    | 1347282/2279011 [00:35<00:24, 37677.33itBuilding dataset for timeline analysis:  59%|█████▉    | 1351208/2279011 [00:36<00:24, 38146.43itBuilding dataset for timeline analysis:  59%|█████▉    | 1355024/2279011 [00:36<00:24, 37982.98itBuilding dataset for timeline analysis:  60%|█████▉    | 1358884/2279011 [00:36<00:24, 37897.24itBuilding dataset for timeline analysis:  60%|█████▉    | 1362811/2279011 [00:36<00:23, 38303.27itBuilding dataset for timeline analysis:  60%|█████▉    | 1366643/2279011 [00:36<00:23, 38119.85itBuilding dataset for timeline analysis:  60%|██████    | 1370486/2279011 [00:36<00:23, 37974.88itBuilding dataset for timeline analysis:  60%|██████    | 1374406/2279011 [00:36<00:23, 38336.08itBuilding dataset for timeline analysis:  60%|██████    | 1378241/2279011 [00:36<00:23, 38138.12itBuilding dataset for timeline analysis:  61%|██████    | 1382088/2279011 [00:36<00:23, 38033.49itBuilding dataset for timeline analysis:  61%|██████    | 1386018/2279011 [00:36<00:23, 38409.03itBuilding dataset for timeline analysis:  61%|██████    | 1389860/2279011 [00:37<00:23, 38189.64itBuilding dataset for timeline analysis:  61%|██████    | 1393690/2279011 [00:37<00:23, 38014.62itBuilding dataset for timeline analysis:  61%|██████▏   | 1397619/2279011 [00:37<00:22, 38391.00itBuilding dataset for timeline analysis:  61%|██████▏   | 1401459/2279011 [00:37<00:22, 38180.84itBuilding dataset for timeline analysis:  62%|██████▏   | 1405292/2279011 [00:37<00:22, 38043.86itBuilding dataset for timeline analysis:  62%|██████▏   | 1409218/2279011 [00:37<00:22, 38404.22itBuilding dataset for timeline analysis:  62%|██████▏   | 1413060/2279011 [00:37<00:22, 38193.62itBuilding dataset for timeline analysis:  62%|██████▏   | 1416894/2279011 [00:37<00:22, 38041.68itBuilding dataset for timeline analysis:  62%|██████▏   | 1420824/2279011 [00:37<00:22, 38414.55itBuilding dataset for timeline analysis:  63%|██████▎   | 1424667/2279011 [00:37<00:22, 38188.64itBuilding dataset for timeline analysis:  63%|██████▎   | 1428497/2279011 [00:38<00:22, 38040.18itBuilding dataset for timeline analysis:  63%|██████▎   | 1432429/2279011 [00:38<00:22, 38419.66itBuilding dataset for timeline analysis:  63%|██████▎   | 1436272/2279011 [00:38<00:22, 38219.87itBuilding dataset for timeline analysis:  63%|██████▎   | 1440098/2279011 [00:38<00:22, 38037.23itBuilding dataset for timeline analysis:  63%|██████▎   | 1444030/2279011 [00:38<00:21, 38416.47itBuilding dataset for timeline analysis:  64%|██████▎   | 1447873/2279011 [00:38<00:21, 38170.90itBuilding dataset for timeline analysis:  64%|██████▎   | 1451701/2279011 [00:38<00:21, 38012.25itBuilding dataset for timeline analysis:  64%|██████▍   | 1455629/2279011 [00:38<00:21, 38387.32itBuilding dataset for timeline analysis:  64%|██████▍   | 1459469/2279011 [00:38<00:21, 38183.70itBuilding dataset for timeline analysis:  64%|██████▍   | 1463303/2279011 [00:38<00:21, 38023.79itBuilding dataset for timeline analysis:  64%|██████▍   | 1467237/2279011 [00:39<00:21, 38412.83itBuilding dataset for timeline analysis:  65%|██████▍   | 1471080/2279011 [00:39<00:21, 38189.83itBuilding dataset for timeline analysis:  65%|██████▍   | 1474905/2279011 [00:39<00:21, 38029.61itBuilding dataset for timeline analysis:  65%|██████▍   | 1478832/2279011 [00:39<00:20, 38396.67itBuilding dataset for timeline analysis:  65%|██████▌   | 1482673/2279011 [00:39<00:20, 38172.97itBuilding dataset for timeline analysis:  65%|██████▌   | 1486507/2279011 [00:39<00:20, 37994.62itBuilding dataset for timeline analysis:  65%|██████▌   | 1490440/2279011 [00:39<00:20, 38389.60itBuilding dataset for timeline analysis:  66%|██████▌   | 1494280/2279011 [00:39<00:20, 38168.06itBuilding dataset for timeline analysis:  66%|██████▌   | 1498109/2279011 [00:39<00:20, 38003.38itBuilding dataset for timeline analysis:  66%|██████▌   | 1502035/2279011 [00:39<00:20, 38375.30itBuilding dataset for timeline analysis:  66%|██████▌   | 1505874/2279011 [00:40<00:20, 38160.99itBuilding dataset for timeline analysis:  66%|██████▌   | 1509691/2279011 [00:40<00:20, 37824.74itBuilding dataset for timeline analysis:  66%|██████▋   | 1513475/2279011 [00:40<00:20, 37712.82itBuilding dataset for timeline analysis:  67%|██████▋   | 1517278/2279011 [00:40<00:20, 37645.00itBuilding dataset for timeline analysis:  67%|██████▋   | 1521202/2279011 [00:40<00:19, 38115.84itBuilding dataset for timeline analysis:  67%|██████▋   | 1525015/2279011 [00:40<00:19, 37928.07itBuilding dataset for timeline analysis:  67%|██████▋   | 1528880/2279011 [00:40<00:19, 37866.25itBuilding dataset for timeline analysis:  67%|██████▋   | 1532801/2279011 [00:40<00:19, 38263.85itBuilding dataset for timeline analysis:  67%|██████▋   | 1536629/2279011 [00:40<00:19, 38070.43itBuilding dataset for timeline analysis:  68%|██████▊   | 1540482/2279011 [00:40<00:19, 37943.76itBuilding dataset for timeline analysis:  68%|██████▊   | 1544407/2279011 [00:41<00:19, 38329.72itBuilding dataset for timeline analysis:  68%|██████▊   | 1548241/2279011 [00:41<00:19, 38121.36itBuilding dataset for timeline analysis:  68%|██████▊   | 1552084/2279011 [00:41<00:19, 37986.66itBuilding dataset for timeline analysis:  68%|██████▊   | 1556009/2279011 [00:41<00:18, 38360.65itBuilding dataset for timeline analysis:  68%|██████▊   | 1559846/2279011 [00:41<00:18, 38150.99itBuilding dataset for timeline analysis:  69%|██████▊   | 1563686/2279011 [00:41<00:18, 37963.03itBuilding dataset for timeline analysis:  69%|██████▉   | 1567619/2279011 [00:41<00:18, 38367.66itBuilding dataset for timeline analysis:  69%|██████▉   | 1571457/2279011 [00:41<00:18, 38138.44itBuilding dataset for timeline analysis:  69%|██████▉   | 1575288/2279011 [00:41<00:18, 37972.51itBuilding dataset for timeline analysis:  69%|██████▉   | 1579212/2279011 [00:42<00:18, 38346.48itBuilding dataset for timeline analysis:  69%|██████▉   | 1583048/2279011 [00:42<00:18, 38140.95itBuilding dataset for timeline analysis:  70%|██████▉   | 1586890/2279011 [00:42<00:18, 37999.10itBuilding dataset for timeline analysis:  70%|██████▉   | 1590820/2279011 [00:42<00:17, 38383.25itBuilding dataset for timeline analysis:  70%|██████▉   | 1594660/2279011 [00:42<00:17, 38154.35itBuilding dataset for timeline analysis:  70%|███████   | 1598492/2279011 [00:42<00:17, 38004.66itBuilding dataset for timeline analysis:  70%|███████   | 1602409/2279011 [00:42<00:17, 38348.80itBuilding dataset for timeline analysis:  70%|███████   | 1606245/2279011 [00:42<00:17, 38135.47itBuilding dataset for timeline analysis:  71%|███████   | 1610094/2279011 [00:42<00:17, 37983.93itBuilding dataset for timeline analysis:  71%|███████   | 1614013/2279011 [00:42<00:17, 38340.60itBuilding dataset for timeline analysis:  71%|███████   | 1617848/2279011 [00:43<00:17, 38120.03itBuilding dataset for timeline analysis:  71%|███████   | 1621696/2279011 [00:43<00:17, 37979.33itBuilding dataset for timeline analysis:  71%|███████▏  | 1625611/2279011 [00:43<00:17, 38326.01itBuilding dataset for timeline analysis:  71%|███████▏  | 1629445/2279011 [00:43<00:17, 38126.75itBuilding dataset for timeline analysis:  72%|███████▏  | 1633299/2279011 [00:43<00:17, 37966.47itBuilding dataset for timeline analysis:  72%|███████▏  | 1637226/2279011 [00:43<00:16, 38351.52itBuilding dataset for timeline analysis:  72%|███████▏  | 1641063/2279011 [00:43<00:16, 38088.06itBuilding dataset for timeline analysis:  72%|███████▏  | 1644901/2279011 [00:43<00:16, 37944.82itBuilding dataset for timeline analysis:  72%|███████▏  | 1648815/2279011 [00:43<00:16, 38298.62itBuilding dataset for timeline analysis:  73%|███████▎  | 1652646/2279011 [00:43<00:16, 38092.87itBuilding dataset for timeline analysis:  73%|███████▎  | 1656503/2279011 [00:44<00:16, 37952.64itBuilding dataset for timeline analysis:  73%|███████▎  | 1660425/2279011 [00:44<00:16, 38327.64itBuilding dataset for timeline analysis:  73%|███████▎  | 1664259/2279011 [00:44<00:16, 38098.23itBuilding dataset for timeline analysis:  73%|███████▎  | 1668105/2279011 [00:44<00:16, 37964.75itBuilding dataset for timeline analysis:  73%|███████▎  | 1672022/2279011 [00:44<00:15, 38321.66itBuilding dataset for timeline analysis:  74%|███████▎  | 1675855/2279011 [00:44<00:15, 38106.17itBuilding dataset for timeline analysis:  74%|███████▎  | 1679707/2279011 [00:44<00:15, 37955.83itBuilding dataset for timeline analysis:  74%|███████▍  | 1683626/2279011 [00:44<00:15, 38320.27itBuilding dataset for timeline analysis:  74%|███████▍  | 1687459/2279011 [00:44<00:15, 38091.11itBuilding dataset for timeline analysis:  74%|███████▍  | 1691309/2279011 [00:44<00:15, 37947.30itBuilding dataset for timeline analysis:  74%|███████▍  | 1695105/2279011 [00:45<00:15, 37585.86itBuilding dataset for timeline analysis:  75%|███████▍  | 1698876/2279011 [00:45<00:15, 37528.38itBuilding dataset for timeline analysis:  75%|███████▍  | 1702789/2279011 [00:45<00:15, 38001.25itBuilding dataset for timeline analysis:  75%|███████▍  | 1706591/2279011 [00:45<00:15, 37823.56itBuilding dataset for timeline analysis:  75%|███████▌  | 1710477/2279011 [00:45<00:14, 38123.05itBuilding dataset for timeline analysis:  75%|███████▌  | 1714291/2279011 [00:45<00:14, 37991.87itBuilding dataset for timeline analysis:  75%|███████▌  | 1718091/2279011 [00:45<00:14, 37822.77itBuilding dataset for timeline analysis:  76%|███████▌  | 1722007/2279011 [00:45<00:14, 38218.69itBuilding dataset for timeline analysis:  76%|███████▌  | 1725830/2279011 [00:45<00:14, 37998.05itBuilding dataset for timeline analysis:  76%|███████▌  | 1729646/2279011 [00:45<00:14, 37832.77itBuilding dataset for timeline analysis:  76%|███████▌  | 1733556/2279011 [00:46<00:14, 38208.11itBuilding dataset for timeline analysis:  76%|███████▌  | 1737378/2279011 [00:46<00:14, 37986.02itBuilding dataset for timeline analysis:  76%|███████▋  | 1741248/2279011 [00:46<00:14, 37874.68itBuilding dataset for timeline analysis:  77%|███████▋  | 1745164/2279011 [00:46<00:13, 38254.40itBuilding dataset for timeline analysis:  77%|███████▋  | 1748991/2279011 [00:46<00:13, 38031.86itBuilding dataset for timeline analysis:  77%|███████▋  | 1752851/2279011 [00:46<00:13, 37911.14itBuilding dataset for timeline analysis:  77%|███████▋  | 1756751/2279011 [00:46<00:13, 38233.02itBuilding dataset for timeline analysis:  77%|███████▋  | 1760576/2279011 [00:46<00:13, 38031.99itBuilding dataset for timeline analysis:  77%|███████▋  | 1764453/2279011 [00:46<00:13, 37924.28itBuilding dataset for timeline analysis:  78%|███████▊  | 1768371/2279011 [00:46<00:13, 38294.19itBuilding dataset for timeline analysis:  78%|███████▊  | 1772202/2279011 [00:47<00:13, 38039.63itBuilding dataset for timeline analysis:  78%|███████▊  | 1776055/2279011 [00:47<00:13, 37903.67itBuilding dataset for timeline analysis:  78%|███████▊  | 1779970/2279011 [00:47<00:13, 38270.44itBuilding dataset for timeline analysis:  78%|███████▊  | 1783798/2279011 [00:47<00:13, 37902.70itBuilding dataset for timeline analysis:  78%|███████▊  | 1787657/2279011 [00:47<00:13, 37769.30itBuilding dataset for timeline analysis:  79%|███████▊  | 1791567/2279011 [00:47<00:12, 38159.83itBuilding dataset for timeline analysis:  79%|███████▉  | 1795385/2279011 [00:47<00:12, 37951.17itBuilding dataset for timeline analysis:  79%|███████▉  | 1799259/2279011 [00:47<00:12, 37861.26itBuilding dataset for timeline analysis:  79%|███████▉  | 1803168/2279011 [00:47<00:12, 38224.04itBuilding dataset for timeline analysis:  79%|███████▉  | 1806992/2279011 [00:47<00:12, 38013.32itBuilding dataset for timeline analysis:  79%|███████▉  | 1810861/2279011 [00:48<00:12, 37876.07itBuilding dataset for timeline analysis:  80%|███████▉  | 1814776/2279011 [00:48<00:12, 38251.60itBuilding dataset for timeline analysis:  80%|███████▉  | 1818603/2279011 [00:48<00:12, 37998.01itBuilding dataset for timeline analysis:  80%|███████▉  | 1822463/2279011 [00:48<00:12, 37881.79itBuilding dataset for timeline analysis:  80%|████████  | 1826375/2279011 [00:48<00:11, 38246.95itBuilding dataset for timeline analysis:  80%|████████  | 1830201/2279011 [00:48<00:11, 38021.91itBuilding dataset for timeline analysis:  80%|████████  | 1834065/2279011 [00:48<00:11, 37890.24itBuilding dataset for timeline analysis:  81%|████████  | 1837974/2279011 [00:48<00:11, 38243.31itBuilding dataset for timeline analysis:  81%|████████  | 1841800/2279011 [00:48<00:11, 38006.82itBuilding dataset for timeline analysis:  81%|████████  | 1845667/2279011 [00:49<00:11, 37890.51itBuilding dataset for timeline analysis:  81%|████████  | 1849572/2279011 [00:49<00:11, 38231.52itBuilding dataset for timeline analysis:  81%|████████▏ | 1853397/2279011 [00:49<00:11, 37995.60itBuilding dataset for timeline analysis:  81%|████████▏ | 1857270/2279011 [00:49<00:11, 37872.60itBuilding dataset for timeline analysis:  82%|████████▏ | 1861182/2279011 [00:49<00:10, 38239.40itBuilding dataset for timeline analysis:  82%|████████▏ | 1865007/2279011 [00:49<00:10, 38007.34itBuilding dataset for timeline analysis:  82%|████████▏ | 1868871/2279011 [00:49<00:10, 37849.61itBuilding dataset for timeline analysis:  82%|████████▏ | 1872764/2279011 [00:49<00:10, 38167.54itBuilding dataset for timeline analysis:  82%|████████▏ | 1876582/2279011 [00:49<00:10, 37955.04itBuilding dataset for timeline analysis:  83%|████████▎ | 1880473/2279011 [00:49<00:10, 38219.25itBuilding dataset for timeline analysis:  83%|████████▎ | 1884296/2279011 [00:50<00:10, 38046.59itBuilding dataset for timeline analysis:  83%|████████▎ | 1888102/2279011 [00:50<00:10, 37838.17itBuilding dataset for timeline analysis:  83%|████████▎ | 1892016/2279011 [00:50<00:10, 38223.56itBuilding dataset for timeline analysis:  83%|████████▎ | 1895840/2279011 [00:50<00:10, 37991.48itBuilding dataset for timeline analysis:  83%|████████▎ | 1899642/2279011 [00:50<00:10, 37806.04itBuilding dataset for timeline analysis:  84%|████████▎ | 1903546/2279011 [00:50<00:09, 38171.06itBuilding dataset for timeline analysis:  84%|████████▎ | 1907364/2279011 [00:50<00:09, 37952.19itBuilding dataset for timeline analysis:  84%|████████▍ | 1911244/2279011 [00:50<00:09, 37847.99itBuilding dataset for timeline analysis:  84%|████████▍ | 1915154/2279011 [00:50<00:09, 38217.01itBuilding dataset for timeline analysis:  84%|████████▍ | 1918977/2279011 [00:50<00:09, 37955.96itBuilding dataset for timeline analysis:  84%|████████▍ | 1922847/2279011 [00:51<00:09, 37846.97itBuilding dataset for timeline analysis:  85%|████████▍ | 1926752/2279011 [00:51<00:09, 38200.90itBuilding dataset for timeline analysis:  85%|████████▍ | 1930574/2279011 [00:51<00:09, 37971.41itBuilding dataset for timeline analysis:  85%|████████▍ | 1934448/2279011 [00:51<00:09, 38195.77itBuilding dataset for timeline analysis:  85%|████████▌ | 1938269/2279011 [00:51<00:08, 38025.95itBuilding dataset for timeline analysis:  85%|████████▌ | 1942073/2279011 [00:51<00:08, 37822.69itBuilding dataset for timeline analysis:  85%|████████▌ | 1945978/2279011 [00:51<00:08, 38186.20itBuilding dataset for timeline analysis:  86%|████████▌ | 1949798/2279011 [00:51<00:08, 37937.98itBuilding dataset for timeline analysis:  86%|████████▌ | 1953617/2279011 [00:51<00:08, 37783.06itBuilding dataset for timeline analysis:  86%|████████▌ | 1957517/2279011 [00:51<00:08, 38143.17itBuilding dataset for timeline analysis:  86%|████████▌ | 1961333/2279011 [00:52<00:08, 37911.59itBuilding dataset for timeline analysis:  86%|████████▌ | 1965218/2279011 [00:52<00:08, 38170.13itBuilding dataset for timeline analysis:  86%|████████▋ | 1969036/2279011 [00:52<00:08, 38003.39itBuilding dataset for timeline analysis:  87%|████████▋ | 1972837/2279011 [00:52<00:08, 37800.22itBuilding dataset for timeline analysis:  87%|████████▋ | 1976742/2279011 [00:52<00:07, 38169.85itBuilding dataset for timeline analysis:  87%|████████▋ | 1980560/2279011 [00:52<00:07, 37933.97itBuilding dataset for timeline analysis:  87%|████████▋ | 1984388/2279011 [00:52<00:07, 37767.48itBuilding dataset for timeline analysis:  87%|████████▋ | 1988287/2279011 [00:52<00:07, 38128.91itBuilding dataset for timeline analysis:  87%|████████▋ | 1992101/2279011 [00:52<00:07, 37912.52itBuilding dataset for timeline analysis:  88%|████████▊ | 1995989/2279011 [00:52<00:07, 38172.05itBuilding dataset for timeline analysis:  88%|████████▊ | 1999807/2279011 [00:53<00:07, 37972.10itBuilding dataset for timeline analysis:  88%|████████▊ | 2003605/2279011 [00:53<00:07, 37770.28itBuilding dataset for timeline analysis:  88%|████████▊ | 2007505/2279011 [00:53<00:07, 38134.98itBuilding dataset for timeline analysis:  88%|████████▊ | 2011320/2279011 [00:53<00:07, 37909.89itBuilding dataset for timeline analysis:  88%|████████▊ | 2015159/2279011 [00:53<00:06, 37776.32itBuilding dataset for timeline analysis:  89%|████████▊ | 2019057/2279011 [00:53<00:06, 38132.27itBuilding dataset for timeline analysis:  89%|████████▉ | 2022872/2279011 [00:53<00:06, 37908.43itBuilding dataset for timeline analysis:  89%|████████▉ | 2026760/2279011 [00:53<00:06, 38160.10itBuilding dataset for timeline analysis:  89%|████████▉ | 2030577/2279011 [00:53<00:06, 37985.32itBuilding dataset for timeline analysis:  89%|████████▉ | 2034377/2279011 [00:53<00:06, 37782.41itBuilding dataset for timeline analysis:  89%|████████▉ | 2038279/2279011 [00:54<00:06, 38148.80itBuilding dataset for timeline analysis:  90%|████████▉ | 2042095/2279011 [00:54<00:06, 37909.91itBuilding dataset for timeline analysis:  90%|████████▉ | 2045930/2279011 [00:54<00:06, 37771.97itBuilding dataset for timeline analysis:  90%|████████▉ | 2049824/2279011 [00:54<00:06, 38117.18itBuilding dataset for timeline analysis:  90%|█████████ | 2053637/2279011 [00:54<00:05, 37912.39itBuilding dataset for timeline analysis:  90%|█████████ | 2057531/2279011 [00:54<00:05, 38165.08itBuilding dataset for timeline analysis:  90%|█████████ | 2061349/2279011 [00:54<00:05, 37982.27itBuilding dataset for timeline analysis:  91%|█████████ | 2065148/2279011 [00:54<00:05, 37761.14itBuilding dataset for timeline analysis:  91%|█████████ | 2069047/2279011 [00:54<00:05, 38124.38itBuilding dataset for timeline analysis:  91%|█████████ | 2072861/2279011 [00:54<00:05, 37894.54itBuilding dataset for timeline analysis:  91%|█████████ | 2076700/2279011 [00:55<00:05, 37757.01itBuilding dataset for timeline analysis:  91%|█████████▏| 2080594/2279011 [00:55<00:05, 38106.19itBuilding dataset for timeline analysis:  91%|█████████▏| 2084406/2279011 [00:55<00:05, 37888.92itBuilding dataset for timeline analysis:  92%|█████████▏| 2088295/2279011 [00:55<00:04, 38185.57itBuilding dataset for timeline analysis:  92%|█████████▏| 2092115/2279011 [00:55<00:04, 37950.87itBuilding dataset for timeline analysis:  92%|█████████▏| 2095911/2279011 [00:55<00:04, 37748.24itBuilding dataset for timeline analysis:  92%|█████████▏| 2099810/2279011 [00:55<00:04, 38115.52itBuilding dataset for timeline analysis:  92%|█████████▏| 2103623/2279011 [00:55<00:04, 37872.94itBuilding dataset for timeline analysis:  92%|█████████▏| 2107471/2279011 [00:55<00:04, 37744.29itBuilding dataset for timeline analysis:  93%|█████████▎| 2111319/2279011 [00:56<00:04, 37960.15itBuilding dataset for timeline analysis:  93%|█████████▎| 2115116/2279011 [00:56<00:04, 37750.87itBuilding dataset for timeline analysis:  93%|█████████▎| 2119013/2279011 [00:56<00:04, 38110.68itBuilding dataset for timeline analysis:  93%|█████████▎| 2122825/2279011 [00:56<00:04, 37890.74itBuilding dataset for timeline analysis:  93%|█████████▎| 2126640/2279011 [00:56<00:04, 37728.73itBuilding dataset for timeline analysis:  93%|█████████▎| 2130543/2279011 [00:56<00:03, 38112.33itBuilding dataset for timeline analysis:  94%|█████████▎| 2134356/2279011 [00:56<00:03, 37875.91itBuilding dataset for timeline analysis:  94%|█████████▍| 2138241/2279011 [00:56<00:03, 38111.57itBuilding dataset for timeline analysis:  94%|█████████▍| 2142053/2279011 [00:56<00:03, 37944.64itBuilding dataset for timeline analysis:  94%|█████████▍| 2145848/2279011 [00:56<00:03, 37752.16itBuilding dataset for timeline analysis:  94%|█████████▍| 2149745/2279011 [00:57<00:03, 38112.88itBuilding dataset for timeline analysis:  94%|█████████▍| 2153557/2279011 [00:57<00:03, 37887.46itBuilding dataset for timeline analysis:  95%|█████████▍| 2157411/2279011 [00:57<00:03, 37755.88itBuilding dataset for timeline analysis:  95%|█████████▍| 2161313/2279011 [00:57<00:03, 38128.49itBuilding dataset for timeline analysis:  95%|█████████▌| 2165127/2279011 [00:57<00:03, 37893.75itBuilding dataset for timeline analysis:  95%|█████████▌| 2169012/2279011 [00:57<00:02, 38143.01itBuilding dataset for timeline analysis:  95%|█████████▌| 2172828/2279011 [00:57<00:02, 37958.70itBuilding dataset for timeline analysis:  96%|█████████▌| 2176625/2279011 [00:57<00:02, 37770.95itBuilding dataset for timeline analysis:  96%|█████████▌| 2180519/2279011 [00:57<00:02, 38117.62itBuilding dataset for timeline analysis:  96%|█████████▌| 2184332/2279011 [00:57<00:02, 37882.19itBuilding dataset for timeline analysis:  96%|█████████▌| 2188181/2279011 [00:58<00:02, 37712.55itBuilding dataset for timeline analysis:  96%|█████████▌| 2192073/2279011 [00:58<00:02, 38068.15itBuilding dataset for timeline analysis:  96%|█████████▋| 2195881/2279011 [00:58<00:02, 37833.74itBuilding dataset for timeline analysis:  97%|█████████▋| 2199778/2279011 [00:58<00:02, 38168.47itBuilding dataset for timeline analysis:  97%|█████████▋| 2203596/2279011 [00:58<00:01, 37910.94itBuilding dataset for timeline analysis:  97%|█████████▋| 2207388/2279011 [00:58<00:01, 37732.46itBuilding dataset for timeline analysis:  97%|█████████▋| 2211270/2279011 [00:58<00:01, 38054.12itBuilding dataset for timeline analysis:  97%|█████████▋| 2215077/2279011 [00:58<00:01, 37838.13itBuilding dataset for timeline analysis:  97%|█████████▋| 2218951/2279011 [00:58<00:01, 38099.60itBuilding dataset for timeline analysis:  98%|█████████▊| 2222762/2279011 [00:58<00:01, 37921.85itBuilding dataset for timeline analysis:  98%|█████████▊| 2226555/2279011 [00:59<00:01, 37711.02itBuilding dataset for timeline analysis:  98%|█████████▊| 2230449/2279011 [00:59<00:01, 38073.69itBuilding dataset for timeline analysis:  98%|█████████▊| 2234258/2279011 [00:59<00:01, 37838.47itBuilding dataset for timeline analysis:  98%|█████████▊| 2238121/2279011 [00:59<00:01, 37726.71itBuilding dataset for timeline analysis:  98%|█████████▊| 2242013/2279011 [00:59<00:00, 38077.88itBuilding dataset for timeline analysis:  99%|█████████▊| 2245822/2279011 [00:59<00:00, 37833.15itBuilding dataset for timeline analysis:  99%|█████████▊| 2249680/2279011 [00:59<00:00, 38054.18itBuilding dataset for timeline analysis:  99%|█████████▉| 2253509/2279011 [00:59<00:00, 38122.77itBuilding dataset for timeline analysis:  99%|█████████▉| 2257350/2279011 [00:59<00:00, 38206.04itBuilding dataset for timeline analysis:  99%|█████████▉| 2261184/2279011 [00:59<00:00, 38243.82itBuilding dataset for timeline analysis:  99%|█████████▉| 2265022/2279011 [01:00<00:00, 38282.72itBuilding dataset for timeline analysis: 100%|█████████▉| 2268856/2279011 [01:00<00:00, 38297.28itBuilding dataset for timeline analysis: 100%|█████████▉| 2272691/2279011 [01:00<00:00, 38311.42itBuilding dataset for timeline analysis: 100%|█████████▉| 2276527/2279011 [01:00<00:00, 38324.78it                                                                                                 [2025-05-19 18:45:28][INFO] Finish timeline analysis
-[2025-05-19 18:45:28][INFO] Start analysis SynchronizeStreamAnalyzer with timeline_event_dataset
-[2025-05-19 18:45:29][INFO] Start analysis OpDispatchAnalyzer with timeline_event_dataset
-[2025-05-19 18:45:29][INFO] Start analysis SyncBNAnalyzer with timeline_event_dataset
-[2025-05-19 18:45:29][INFO] Save suggestion to /home/duanjunwen/ColossalAI/applications/ColossalChat/mstt_advisor_20250519174404.html.
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| N | 类型                   | 描述                                                          | 建议                                                                               |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 1 | 环境变量分析           | 描述并给出最优的环境变量配置建议                              | 1. 请设置最优的环境变量                                                            |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 2 | 慢卡分析               | 集群中的通信有问题，                                          |                                                                                    |
-|   |                        | 因为通信时间的最大差距已经达到                                |                                                                                    |
-|   |                        | 103060.644ms。                                                |                                                                                    |
-|   |                        | 集群中的空闲有问题，                                          |                                                                                    |
-|   |                        | 因为空闲时间的最大差距已经达到                                |                                                                                    |
-|   |                        | 99304.586ms。                                                 |                                                                                    |
-|   |                        |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 3 | 慢链路分析             | RDMA bandwidth(GB/s)：                                        |                                                                                    |
-|   |                        |     平均值是 23.997，                                         |                                                                                    |
-|   |                        |     但最大值是 24.017GB/s ，                                  |                                                                                    |
-|   |                        |     最小值是 23.983GB/s。                                     |                                                                                    |
-|   |                        |     差距为 0.034GB/s。                                        |                                                                                    |
-|   |                        | SDMA bandwidth(GB/s)：                                        |                                                                                    |
-|   |                        |     平均值是 17.935，                                         |                                                                                    |
-|   |                        |     但最大值是 18.663GB/s ，                                  |                                                                                    |
-|   |                        |     最小值是 17.174GB/s。                                     |                                                                                    |
-|   |                        |     差距为 1.49GB/s。                                         |                                                                                    |
-|   |                        |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 4 | Memory Operator Issues | 发现了243个AscendCL@aclMallocMemInner算子，花费55469.200000000004us，这将 | 1. For AscendCL@aclMallocMemInner: 请通过命令'export                               |
-|   |                        | 导致大量的空闲时间。                                          | PYTORCH_NPU_ALLOC_CONF=expandable_segments:True'设置环境变量，然后开始训练任务。   |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 5 | Kernel compare of      | Kernel compare of Rank4 Step0 and Rank0 Step0                 |                                                                                    |
-|   | Rank4 Step0 and Rank0  |                                                               |                                                                                    |
-|   | Step0                  |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 6 | Kernel compare of      | Kernel compare of Rank5 Step0 and Rank1 Step0                 |                                                                                    |
-|   | Rank5 Step0 and Rank1  |                                                               |                                                                                    |
-|   | Step0                  |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 7 | Kernel compare of      | Kernel compare of Rank6 Step0 and Rank2 Step0                 |                                                                                    |
-|   | Rank6 Step0 and Rank2  |                                                               |                                                                                    |
-|   | Step0                  |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 8 | Kernel compare of      | Kernel compare of Rank7 Step0 and Rank3 Step0                 |                                                                                    |
-|   | Rank7 Step0 and Rank3  |                                                               |                                                                                    |
-|   | Step0                  |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 9 | Kernel compare of      | Kernel compare of Rank12 Step0 and Rank8 Step0                |                                                                                    |
-|   | Rank12 Step0 and Rank8 |                                                               |                                                                                    |
-|   | Step0                  |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 1 | Kernel compare of      | Kernel compare of Rank13 Step0 and Rank9 Step0                |                                                                                    |
-| 0 | Rank13 Step0 and Rank9 |                                                               |                                                                                    |
-|   | Step0                  |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 1 | Kernel compare of      | Kernel compare of Rank14 Step0 and Rank10 Step0               |                                                                                    |
-| 1 | Rank14 Step0 and       |                                                               |                                                                                    |
-|   | Rank10 Step0           |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 1 | Kernel compare of      | Kernel compare of Rank15 Step0 and Rank11 Step0               |                                                                                    |
-| 2 | Rank15 Step0 and       |                                                               |                                                                                    |
-|   | Rank11 Step0           |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 1 | 4号卡动态shape算子     | 找到所有是动态shape的算子                                     | 1. 在python脚本入口加入以下代码关闭在线编译：                                      |
-| 3 |                        |                                                               | 'torch_npu.npu.set_compile_mode(jit_compile=False)                                 |
-|   |                        |                                                               |  torch_npu.npu.config.allow_internal_format = False'                               |
-|   |                        |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 1 | 4号卡aicpu算子         | 一些算子和任务执行时间超过了20us，比如：                      | 1. 修改代码避免使用aicpu类算子                                                     |
-| 4 |                        | IndexPut                                                      |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 1 | AIcore频率4号卡        | 对于4号卡，在降频期间发现1个算子，频率降低比例超过了0.05。    | 1. 请检查您的机器温度或最大功率。                                                  |
-| 5 |                        |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 1 | Cube算子性能分析       | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
-| 6 |                        |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 1 | FA算子性能分析         | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
-| 7 |                        |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 1 | 5号卡动态shape算子     | 找到所有是动态shape的算子                                     | 1. 在python脚本入口加入以下代码关闭在线编译：                                      |
-| 8 |                        |                                                               | 'torch_npu.npu.set_compile_mode(jit_compile=False)                                 |
-|   |                        |                                                               |  torch_npu.npu.config.allow_internal_format = False'                               |
-|   |                        |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 1 | 5号卡aicpu算子         | 一些算子和任务执行时间超过了20us，比如：                      | 1. 修改代码避免使用aicpu类算子                                                     |
-| 9 |                        | IndexPut                                                      |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 2 | Cube算子性能分析       | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
-| 0 |                        |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 2 | FA算子性能分析         | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
-| 1 |                        |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 2 | 6号卡动态shape算子     | 找到所有是动态shape的算子                                     | 1. 在python脚本入口加入以下代码关闭在线编译：                                      |
-| 2 |                        |                                                               | 'torch_npu.npu.set_compile_mode(jit_compile=False)                                 |
-|   |                        |                                                               |  torch_npu.npu.config.allow_internal_format = False'                               |
-|   |                        |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 2 | 6号卡aicpu算子         | 一些算子和任务执行时间超过了20us，比如：                      | 1. 修改代码避免使用aicpu类算子                                                     |
-| 3 |                        | IndexPut                                                      |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 2 | Cube算子性能分析       | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
-| 4 |                        |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 2 | FA算子性能分析         | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
-| 5 |                        |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 2 | Vector算子性能分析     | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
-| 6 |                        |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 2 | 7号卡动态shape算子     | 找到所有是动态shape的算子                                     | 1. 在python脚本入口加入以下代码关闭在线编译：                                      |
-| 7 |                        |                                                               | 'torch_npu.npu.set_compile_mode(jit_compile=False)                                 |
-|   |                        |                                                               |  torch_npu.npu.config.allow_internal_format = False'                               |
-|   |                        |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 2 | 7号卡aicpu算子         | 一些算子和任务执行时间超过了20us，比如：                      | 1. 修改代码避免使用aicpu类算子                                                     |
-| 8 |                        | IndexPut                                                      |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 2 | Cube算子性能分析       | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
-| 9 |                        |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 3 | FA算子性能分析         | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
-| 0 |                        |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 3 | 12号卡动态shape算子    | 找到所有是动态shape的算子                                     | 1. 在python脚本入口加入以下代码关闭在线编译：                                      |
-| 1 |                        |                                                               | 'torch_npu.npu.set_compile_mode(jit_compile=False)                                 |
-|   |                        |                                                               |  torch_npu.npu.config.allow_internal_format = False'                               |
-|   |                        |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 3 | 12号卡aicpu算子        | 一些算子和任务执行时间超过了20us，比如：                      | 1. 修改代码避免使用aicpu类算子                                                     |
-| 2 |                        | IndexPut                                                      |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 3 | Cube算子性能分析       | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
-| 3 |                        |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 3 | FA算子性能分析         | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
-| 4 |                        |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 3 | 13号卡动态shape算子    | 找到所有是动态shape的算子                                     | 1. 在python脚本入口加入以下代码关闭在线编译：                                      |
-| 5 |                        |                                                               | 'torch_npu.npu.set_compile_mode(jit_compile=False)                                 |
-|   |                        |                                                               |  torch_npu.npu.config.allow_internal_format = False'                               |
-|   |                        |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 3 | 13号卡aicpu算子        | 一些算子和任务执行时间超过了20us，比如：                      | 1. 修改代码避免使用aicpu类算子                                                     |
-| 6 |                        | IndexPut                                                      |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 3 | Cube算子性能分析       | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
-| 7 |                        |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 3 | FA算子性能分析         | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
-| 8 |                        |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 3 | Vector算子性能分析     | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
-| 9 |                        |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 4 | 14号卡动态shape算子    | 找到所有是动态shape的算子                                     | 1. 在python脚本入口加入以下代码关闭在线编译：                                      |
-| 0 |                        |                                                               | 'torch_npu.npu.set_compile_mode(jit_compile=False)                                 |
-|   |                        |                                                               |  torch_npu.npu.config.allow_internal_format = False'                               |
-|   |                        |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 4 | 14号卡aicpu算子        | 一些算子和任务执行时间超过了20us，比如：                      | 1. 修改代码避免使用aicpu类算子                                                     |
-| 1 |                        | IndexPut                                                      |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 4 | Cube算子性能分析       | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
-| 2 |                        |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 4 | FA算子性能分析         | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
-| 3 |                        |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 4 | 15号卡动态shape算子    | 找到所有是动态shape的算子                                     | 1. 在python脚本入口加入以下代码关闭在线编译：                                      |
-| 4 |                        |                                                               | 'torch_npu.npu.set_compile_mode(jit_compile=False)                                 |
-|   |                        |                                                               |  torch_npu.npu.config.allow_internal_format = False'                               |
-|   |                        |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 4 | 15号卡aicpu算子        | 一些算子和任务执行时间超过了20us，比如：                      | 1. 修改代码避免使用aicpu类算子                                                     |
-| 5 |                        | IndexPut                                                      |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 4 | Cube算子性能分析       | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
-| 6 |                        |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 4 | FA算子性能分析         | 提供一些AICORE算子的参考瓶颈                                  | 1. 请根据亲和性、bound类型或优化空间尝试分析筛选出来的算子                         |
-| 7 |                        |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 4 | Api compare of Rank6   | Api compare of Rank6 Step0 and Rank11 Step0                   |                                                                                    |
-| 8 | Step0 and Rank11 Step0 |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 4 | 可融合算子分析         | 共检测到181个有融合价值的算子序列，总计端到端耗时665176.641ms， | 1. 发现大量存在host下发瓶颈的算子序列，可能原因是代码中使用了NPU非亲和操作。请先采集开启调用栈数据根据算子索引确定代码位置评估算法实现的亲和性，如无问题可 |
-| 9 |                        | 其中npu时间共13626.007ms，host瓶颈耗时占比0.98，mte耗时占比0.024. | 进行后续可融合性评估                                                               |
-|   |                        |                                                               | 2. 基于可融合算子序列数据，联系开发人员评估算法层面上算子序列是否可融合.           |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 5 | Conjectured Gc         | 在34079031.859us的空闲时间内几乎没有主机任务，这可能是由Python的异常GC引起的 | 1. 内存管理, 实现高效的Python内存管理；不使用时及时释放内存，避免长期占用；避免对象之间的循环引用。 |
-| 0 |                        |                                                               | 2. adjusting the GC threshold, 使用 gc.set_threshold()                             |
-|   |                        |                                                               | 来调整垃圾回收阈值可以延迟垃圾收集，但这是一个临时解决方案。                       |
-|   |                        |                                                               | 3. disable GC, 使用 gc.disable() 来关闭GC，注意这是个临时解决方案。                |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 5 | Slow Dataloader Issues | dataloader加载数据速度较慢，一次迭代花费138000.9us，通常小于10000us。 | 1. 请检查数据目录的磁盘I/O。如果您正在ModelArts中训练模型，请将数据移动到“/cache”或装载更高效的云磁盘以获得更好的I/O。 |
-| 1 |                        |                                                               | 2. 尝试调整dataloader参数'num_workers'。                                           |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-| 5 | 亲和API接口            | 目前运行环境版本为cann-8.0.0和torch-2.1.0，发现有3个api接口可以替换。 | 1. 请根据子表'Affinity training api'替换训练api接口                                |
-| 2 |                        |                                                               |                                                                                    |
-+---+------------------------+---------------------------------------------------------------+------------------------------------------------------------------------------------+
-[2025-05-19 18:45:29][INFO] Save problems details file to /home/duanjunwen/ColossalAI/applications/ColossalChat/log/mstt_advisor_20250519174404.xlsx
\ No newline at end of file
diff --git a/applications/ColossalChat/rl_example.py b/applications/ColossalChat/rl_example.py
index e10596ddbf63..016946e7f93a 100644
--- a/applications/ColossalChat/rl_example.py
+++ b/applications/ColossalChat/rl_example.py
@@ -89,7 +89,7 @@
         help="Top p for sampling. Please check the generation arguments documentation for your backend.",
     )
     parser.add_argument("-s", "--system-prompt", type=str, default=None, help="System prompt for data construction.")
-    parser.add_argument("-mnt", "--max-new-tokens", type=int, default=1024 * 24 - 512, help="Max length for generation.")
+    parser.add_argument("-mnt", "--max-new-tokens", type=int, default=1024 * 4 - 512, help="Max length for generation.")
     parser.add_argument("-mpt", "--max-prompt-tokens", type=int, default=512, help="Max length for prompt.")
 
     # GRPO parameters
@@ -250,16 +250,16 @@
         #     "zero_stage": 2,
         # },  # for zero
         plugin_config={
-            "tp_size": 4,
+            "tp_size": 2,
             "pp_size": 2,
             "microbatch_size": max(
                 1, args.train_microbatch_size // 2
             ),  # microbatch size should be set to train_microbatch_size // pp_size
             "zero_stage": 1,
             "max_norm": 1.0,
-            "sp_size": 4,
-            "enable_sequence_parallelism":True,
-            "sequence_parallelism_mode":"split_gather" # ["split_gather", "ring", "all_to_all"]
+            # "sp_size": 4,
+            # "enable_sequence_parallelism":True,
+            # "sequence_parallelism_mode":"split_gather" # ["split_gather", "ring", "all_to_all"]
         },  # for pp, tp
         inference_backend=args.backend,
         master_addr="localhost",
diff --git a/applications/ColossalChat/tests/test_log_prob.py b/applications/ColossalChat/tests/test_log_prob.py
new file mode 100644
index 000000000000..0d7454070bdf
--- /dev/null
+++ b/applications/ColossalChat/tests/test_log_prob.py
@@ -0,0 +1,58 @@
+import torch
+import time
+import random
+
+def code1(target, vocab_start_index, vocab_end_index):
+    """index Put"""
+    target_mask = (target < vocab_start_index) | (target >= vocab_end_index)
+    masked_target = target.clone() - vocab_start_index
+    masked_target[target_mask] = 0
+    return masked_target
+
+def code2(target, vocab_start_index, vocab_end_index):
+    """bool multiply"""
+    target_mask = (target < vocab_start_index) | (target >= vocab_end_index)
+    masked_target = target.clone() - vocab_start_index
+    masked_target *= ~target_mask
+    return masked_target
+
+def test_performance():
+    batch_size = 8
+    sizes = [4096, 8192, 16384, 32768, 131072]
+    code1_times = []
+    code2_times = []
+    
+    for size in sizes:
+        target = torch.randint(0, size, (batch_size, size,)).to("npu")
+        vocab_start_index = random.randint(0, size//2)
+        vocab_end_index = random.randint(size//2, size)
+        
+        # warmup
+        for _ in range(5):
+            code1(target, vocab_start_index, vocab_end_index)
+            code2(target, vocab_start_index, vocab_end_index)
+        
+        # Code 1: index input
+        start_time = time.time()
+        for _ in range(10):
+            code1(target, vocab_start_index, vocab_end_index)
+        code1_time = (time.time() - start_time) / 10
+        code1_times.append(code1_time)
+        
+        # Code 2: bool multiply
+        start_time = time.time()
+        for _ in range(10):
+            code2(target, vocab_start_index, vocab_end_index)
+        code2_time = (time.time() - start_time) / 10
+        code2_times.append(code2_time)
+        
+        print(f"DataSize: {size}")
+        print(f"  Code 1:index input AvgRuntime: {code1_time:.6f} s")
+        print(f"  Code 2:bool multiply AvgRuntime {code2_time:.6f} s")
+        # print(f"  acceleration ratio: {(code1_time/code2_time-1)*100:.2f}%")
+        print(f"  acceleration ratio: {(code1_time/code2_time - 1)*100:.2f}%")
+
+
+if __name__ == "__main__":    
+    print("\n===== Performance Benchmark =====")
+    test_performance()
\ No newline at end of file
diff --git a/colossalai/shardformer/layer/loss.py b/colossalai/shardformer/layer/loss.py
index 7c43e3659901..cf138aeb0bb2 100644
--- a/colossalai/shardformer/layer/loss.py
+++ b/colossalai/shardformer/layer/loss.py
@@ -190,7 +190,8 @@ def forward(
         # mask
         mask = (target < down_threshold) | (target >= up_threshold)
         masked_target = target.clone() - down_threshold
-        masked_target[mask] = 0
+        # masked_target[mask] = 0
+        masked_target *= ~mask
         masked_target_1d = masked_target.view(-1).contiguous()
         handle.wait()
  
diff --git a/colossalai/shardformer/modeling/qwen2.py b/colossalai/shardformer/modeling/qwen2.py
index bb7d14966cb5..a8e561409f5d 100644
--- a/colossalai/shardformer/modeling/qwen2.py
+++ b/colossalai/shardformer/modeling/qwen2.py
@@ -218,6 +218,7 @@ def qwen2_model_forward(
                 all_hidden_states += (hidden_states,)
 
             past_key_value = past_key_values[idx] if past_key_values is not None else None
+            print(f"######debug idx: {idx}")
 
             if idx - start_idx < num_ckpt_layers:
                 layer_outputs = self._gradient_checkpointing_func(

From 5085c5eaf117ce45dd6d98fbb1d57585013a127c Mon Sep 17 00:00:00 2001
From: "pre-commit-ci[bot]"
 <66853113+pre-commit-ci[bot]@users.noreply.github.com>
Date: Fri, 23 May 2025 03:46:40 +0000
Subject: [PATCH 10/24] [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci
---
 .../ColossalChat/ColossalaiRL_On_Ascend.md    | 10 +--
 .../coati/distributed/consumer.py             | 14 ++--
 .../coati/distributed/inference_backend.py    |  2 +-
 .../ColossalChat/coati/distributed/launch.py  | 21 +++---
 .../coati/distributed/producer.py             | 16 +++--
 .../ColossalChat/coati/distributed/utils.py   |  1 -
 applications/ColossalChat/rl_example.py       |  4 +-
 .../ColossalChat/tests/test_hybrid.py         | 70 +++++++++++--------
 .../ColossalChat/tests/test_log_prob.py       | 35 ++++++----
 applications/ColossalChat/tests/test_ray.py   | 11 ++-
 .../ColossalChat/tests/test_ray_vllm.py       | 31 ++++----
 applications/ColossalChat/tests/test_vllm.py  | 23 ++++--
 .../ColossalChat/tests/test_vllm_multinode.py | 19 ++---
 colossalai/shardformer/layer/loss.py          |  2 +-
 colossalai/shardformer/modeling/qwen2.py      | 21 ++++--
 colossalai/shardformer/policies/qwen2.py      |  1 -
 16 files changed, 164 insertions(+), 117 deletions(-)

diff --git a/applications/ColossalChat/ColossalaiRL_On_Ascend.md b/applications/ColossalChat/ColossalaiRL_On_Ascend.md
index 1b258137d40f..28cf637fd5a9 100644
--- a/applications/ColossalChat/ColossalaiRL_On_Ascend.md
+++ b/applications/ColossalChat/ColossalaiRL_On_Ascend.md
@@ -30,7 +30,7 @@ pip install ray==2.43.0 --no-cache-dir
 
 # Create soft-link from fuyao-ray to ray site-package
 cd ..
-ln -s ./ray/python/ray/ /usr/local/python3.10/lib/python3.10/site-packages/ray 
+ln -s ./ray/python/ray/ /usr/local/python3.10/lib/python3.10/site-packages/ray
 
 # Install Fuyao Ray
 cd ray
@@ -60,19 +60,19 @@ Then write IP node map to /etc/hosts
 10.0.0.6 npu-6
 ```
 
-### Set Ascend Multi-Node Config 
+### Set Ascend Multi-Node Config
 
 ```bash
 export ATB_LLM_HCCL_ENABLE=1
 export ATB_LLM_COMM_BACKEND="hccl"
 export HCCL_CONNECT_TIMEOUT=7200
 export WORLD_SIZE=32
-export HCCL_EXEC_TIMEOUT=7200 
+export HCCL_EXEC_TIMEOUT=7200
 export HCCL_SOCKET_IFNAME=eno0
-export RAY_COLLECTIVE_MEET_TIMEOUT_SECONDS=7200 
+export RAY_COLLECTIVE_MEET_TIMEOUT_SECONDS=7200
 ```
 
-## 3.Run task on ColossalaiRL-Ascend 
+## 3.Run task on ColossalaiRL-Ascend
 
 ### Start Ray Cluster
 Now we use 10.0.0.3 as master node. First we start a ray cluster on 10.0.0.3:
diff --git a/applications/ColossalChat/coati/distributed/consumer.py b/applications/ColossalChat/coati/distributed/consumer.py
index 9828ce6f15cd..f92dc6c06968 100644
--- a/applications/ColossalChat/coati/distributed/consumer.py
+++ b/applications/ColossalChat/coati/distributed/consumer.py
@@ -13,11 +13,11 @@
 from colossalai.booster.plugin import HybridParallelPlugin
 from colossalai.initialize import launch
 from colossalai.nn.optimizer import HybridAdam
-from colossalai.utils import get_current_device
 
 from .comm import ray_broadcast_tensor_dict
 from .utils import bind_batch, post_recv, unbind_batch
 
+
 class BaseConsumer:
     def __init__(
         self,
@@ -56,7 +56,7 @@ def __init__(
         self.plugin_config = plugin_config
 
         # self.device = get_current_device()
-        self.device = 'npu'
+        self.device = "npu"
         # self.device = torch.device(f"npu:{torch.npu.current_device()}")
         self.lr_scheduler = None
         self.generate_config = generate_config
@@ -86,16 +86,18 @@ def setup(self) -> None:
 
         # Init Hybrid ray process group
         for i in range(self.num_producers):
-            cc.init_collective_group(self.world_size + 1, self.rank + 1, backend='hccl',group_name=f"sync_data_{i}")
+            cc.init_collective_group(self.world_size + 1, self.rank + 1, backend="hccl", group_name=f"sync_data_{i}")
         if self.pp_size > 1:
             # use hybrid tp + pp
             if self.tp_rank == 0 and self.dp_rank == 0:
                 cc.init_collective_group(
-                    self.num_producers + 1, self.num_producers, backend='hccl', group_name=f"sync_model_{self.pp_rank}"
+                    self.num_producers + 1, self.num_producers, backend="hccl", group_name=f"sync_model_{self.pp_rank}"
                 )
         else:
             if self.rank == 0:
-                cc.init_collective_group(self.num_producers + 1, self.num_producers, backend='hccl', group_name="sync_model")
+                cc.init_collective_group(
+                    self.num_producers + 1, self.num_producers, backend="hccl", group_name="sync_model"
+                )
 
         self.buffer = []
         self.recv_cnt = 0
@@ -161,7 +163,7 @@ def loop(self) -> None:
                                 f"[T{dist.get_rank()}] Sync model PP stage {self.pp_rank} episode {episode} step {step}"
                             )
                         else:
-                            print(f"[T{dist.get_rank()}] Sync model episode {episode} step {step}")  
+                            print(f"[T{dist.get_rank()}] Sync model episode {episode} step {step}")
                         torch.cuda.empty_cache()
                         state_dict = self.state_dict()
                         if self.pp_size > 1:
diff --git a/applications/ColossalChat/coati/distributed/inference_backend.py b/applications/ColossalChat/coati/distributed/inference_backend.py
index a2bc3c000e67..7988802a3eaa 100644
--- a/applications/ColossalChat/coati/distributed/inference_backend.py
+++ b/applications/ColossalChat/coati/distributed/inference_backend.py
@@ -210,7 +210,7 @@ def __init__(
         self.model_config = model_config
         self.tokenizer = tokenizer
         self.num_generations = num_generations
-        self.max_length = generate_config['max_tokens']
+        self.max_length = generate_config["max_tokens"]
 
     @torch.no_grad()
     def generate(self, input_ids: torch.Tensor, attention_mask: torch.Tensor, **kwargs) -> Dict[str, torch.Tensor]:
diff --git a/applications/ColossalChat/coati/distributed/launch.py b/applications/ColossalChat/coati/distributed/launch.py
index 1d1b440a3590..6bb10f9e7ac1 100644
--- a/applications/ColossalChat/coati/distributed/launch.py
+++ b/applications/ColossalChat/coati/distributed/launch.py
@@ -65,7 +65,9 @@ def launch_distributed(
         core_consumer = ALGO_MAP.get(core_algo, SimpleConsumer)
 
     train_dp_size = get_dp_size_fast(num_consumer_procs, plugin_config)
-    print(f"inference_batch_size {inference_batch_size} num_producers {num_producers} train_batch_size {train_batch_size} train_dp_size {train_dp_size}")
+    print(
+        f"inference_batch_size {inference_batch_size} num_producers {num_producers} train_batch_size {train_batch_size} train_dp_size {train_dp_size}"
+    )
     assert (inference_batch_size * num_producers) % (train_batch_size * train_dp_size) == 0
 
     dataset_path = train_dataset_config["path"]
@@ -73,7 +75,7 @@ def launch_distributed(
     global_inference_batch_size = inference_batch_size * num_producers
     num_update_per_episode = num_samples // global_inference_batch_size
     num_recv_per_update = inference_batch_size // inference_microbatch_size
-    
+
     run_name = f"{inference_backend}_bs_{train_batch_size * train_dp_size}_temp_{generate_config['temperature']:.01f}_top_p_{generate_config['top_p']:.02f}"
     wandb_group_name = str(uuid.uuid4())
     rollout_log_file = os.path.join(
@@ -81,7 +83,6 @@ def launch_distributed(
         f"{project_name.replace(' ','_')}_run_{wandb_group_name}.jsonl",
     )
 
-
     # ###########################################
     # # Old version, may lead colossalai init stuck in multinodes
     # ############################################
@@ -136,7 +137,7 @@ def launch_distributed(
     #     procs.append(consumer)
     # ray.get([p.setup.remote() for p in procs])
     # ray.get([p.loop.remote() for p in procs])
-    
+
     ###########################################
     # New version, assign master ip for colossalai & vllm respectively
     ###########################################
@@ -153,13 +154,13 @@ def launch_distributed(
     gpu_to_node_id = []
     gpu_to_ip_address = []
     for node_id in node_info:
-        for idx in range(int(node_info[node_id]["num_gpus"])): # use num_gpus instead of num_npus
+        for idx in range(int(node_info[node_id]["num_gpus"])):  # use num_gpus instead of num_npus
             gpu_to_node_id.append(node_id)
             gpu_to_ip_address.append(node_info[node_id]["address"])
     print(f"node_info {node_info} \n gpu_to_node_id {gpu_to_node_id} \n gpu_to_ip_address {gpu_to_ip_address} \n")
 
     producer_procs = []
-    
+
     for i in range(num_producers):
         node_id = gpu_to_node_id[0]
         producer_ip_address = gpu_to_ip_address[0]
@@ -167,12 +168,12 @@ def launch_distributed(
             gpu_to_node_id.pop(0)
             gpu_to_ip_address.pop(0)
         print(f"Schedual Producer P[{i}] which requires {num_proc_per_producer} GPUs on node {producer_ip_address}")
-        
+
         producer = SimpleProducer.options(
             # num_cpus=1,
-            # num_cpus=num_proc_per_producer, 
+            # num_cpus=num_proc_per_producer,
             num_gpus=0,
-            resources={"NPU":num_proc_per_producer},
+            resources={"NPU": num_proc_per_producer},
             scheduling_strategy=ray.util.scheduling_strategies.NodeAffinitySchedulingStrategy(
                 node_id=node_id,
                 soft=False,
@@ -221,7 +222,7 @@ def launch_distributed(
         gpu_to_ip_address.pop(0)
         print(f"Schedual Consumer T[{i}] which requires 1 GPUs on node {consumer_ip_address}")
         consumer = core_consumer.options(
-            resources={"NPU":1},
+            resources={"NPU": 1},
             scheduling_strategy=ray.util.scheduling_strategies.NodeAffinitySchedulingStrategy(
                 node_id=node_id,
                 soft=False,
diff --git a/applications/ColossalChat/coati/distributed/producer.py b/applications/ColossalChat/coati/distributed/producer.py
index 75dd2ee8858e..2911559929c2 100644
--- a/applications/ColossalChat/coati/distributed/producer.py
+++ b/applications/ColossalChat/coati/distributed/producer.py
@@ -11,7 +11,7 @@
 from coati.dataset.loader import RawConversationDataset
 from coati.distributed.reward.reward_fn import boxed_math_reward_fn, math_reward_fn
 from ray.util.collective import allreduce
-from ray.util.collective.types import Backend, ReduceOp
+from ray.util.collective.types import ReduceOp
 from torch.utils.data import DataLoader, DistributedSampler
 from transformers import AutoTokenizer
 
@@ -19,7 +19,7 @@
 
 from .comm import ray_broadcast_tensor_dict
 from .inference_backend import BACKEND_MAP
-from .utils import pre_send, safe_append_to_jsonl_file
+from .utils import safe_append_to_jsonl_file
 
 try:
     from vllm import SamplingParams
@@ -152,7 +152,7 @@ def __init__(
             print("No eval dataset provided, skip eval")
         self.device = get_current_device()
         # self.device = get_current_device()
-        self.device = 'npu'
+        self.device = "npu"
         # self.device = torch.device(f"npu:{torch.npu.current_device()}")
 
         # init backend
@@ -164,12 +164,16 @@ def __init__(
         self.consumer_pp_size = consumer_plugin_config.get("pp_size", 1)  # consumer pp size
 
     def setup(self) -> None:
-        cc.init_collective_group(1 + self.num_consumer_procs, 0, backend='hccl', group_name=f"sync_data_{self.producer_idx}")
+        cc.init_collective_group(
+            1 + self.num_consumer_procs, 0, backend="hccl", group_name=f"sync_data_{self.producer_idx}"
+        )
         if self.consumer_pp_size > 1:
             for i in range(self.consumer_pp_size):
-                cc.init_collective_group(self.num_producers + 1, self.producer_idx, backend='hccl', group_name=f"sync_model_{i}")
+                cc.init_collective_group(
+                    self.num_producers + 1, self.producer_idx, backend="hccl", group_name=f"sync_model_{i}"
+                )
         else:
-            cc.init_collective_group(self.num_producers + 1, self.producer_idx, backend='hccl', group_name="sync_model")
+            cc.init_collective_group(self.num_producers + 1, self.producer_idx, backend="hccl", group_name="sync_model")
 
     def rollout(self, input_ids: torch.Tensor, attention_mask: torch.Tensor, **kwargs) -> Dict[str, torch.Tensor]:
         raise NotImplementedError
diff --git a/applications/ColossalChat/coati/distributed/utils.py b/applications/ColossalChat/coati/distributed/utils.py
index ce4685b3226b..a40ebbcfbe92 100644
--- a/applications/ColossalChat/coati/distributed/utils.py
+++ b/applications/ColossalChat/coati/distributed/utils.py
@@ -3,7 +3,6 @@
 from typing import Any, Dict, List
 
 import torch
-import math
 from filelock import FileLock
 
 from colossalai.shardformer.layer.loss import dist_log_prob
diff --git a/applications/ColossalChat/rl_example.py b/applications/ColossalChat/rl_example.py
index 016946e7f93a..472c13e94ff0 100644
--- a/applications/ColossalChat/rl_example.py
+++ b/applications/ColossalChat/rl_example.py
@@ -151,7 +151,9 @@
             args.top_k = -1
 
     inference_model_config = dict(path=args.model)
-    train_model_config = dict(path=args.model, use_flash_attention_2=False, use_cache=False, attn_implementation="eager")
+    train_model_config = dict(
+        path=args.model, use_flash_attention_2=False, use_cache=False, attn_implementation="eager"
+    )
     generate_config = dict(top_k=args.top_k, top_p=args.top_p, temperature=args.temperature)
 
     if args.backend == "transformers":
diff --git a/applications/ColossalChat/tests/test_hybrid.py b/applications/ColossalChat/tests/test_hybrid.py
index d66999afd542..ec1bf4c3e312 100644
--- a/applications/ColossalChat/tests/test_hybrid.py
+++ b/applications/ColossalChat/tests/test_hybrid.py
@@ -1,10 +1,11 @@
 import torch
 import torch.distributed as dist
+import torch_npu
 from coati.dataset.loader import RawConversationDataset
 from torch.utils.data import Dataset
 from tqdm import tqdm
 from transformers import AutoTokenizer, Qwen2ForCausalLM
-import torch_npu
+
 import colossalai
 from colossalai.accelerator import get_accelerator
 from colossalai.booster import Booster
@@ -21,6 +22,7 @@
 MODEL_PATH = "/home/grpo/models/DeepSeek-R1-Distill-Qwen-7B"
 Device = torch.device("npu" if torch.npu.is_available() else "cpu")
 
+
 class RandomDataset(Dataset):
     def __init__(self, num_samples, sequence_length, vocab_size=10000):
         self.num_samples = num_samples
@@ -35,6 +37,7 @@ def __len__(self):
     def __getitem__(self, idx):
         return {"input_ids": self.input_idx[idx], "attention_mask": self.attention_mask[idx]}
 
+
 def load_model_and_tokenizer():
     attn_impl = "eager" if get_accelerator().name == "npu" else "flash_attention_2"
     tokenizer = AutoTokenizer.from_pretrained(
@@ -45,40 +48,47 @@ def load_model_and_tokenizer():
     model = Qwen2ForCausalLM.from_pretrained(MODEL_PATH, trust_remote_code=True)
     return tokenizer, model
 
+
 def all_reduce_mean(loss: torch.Tensor, plugin: Plugin) -> torch.Tensor:
     loss = loss.data
     group = getattr(plugin, "dp_group", None)
     dist.all_reduce(loss, group=group)
     return loss / dist.get_world_size(group)
 
+
 def test_hybrid_qwen():
     colossalai.launch_from_torch()
     get_accelerator()
     coordinator = DistCoordinator()
     tokenizer, model = load_model_and_tokenizer()
     # dataset = RandomDataset(num_samples=100, sequence_length=2304)
-    dataset = RawConversationDataset(tokenizer, DATA_PATH, 16 * 1024,  system_prompt="Please reason step by step, and put your final answer within \\boxed{}.")
+    dataset = RawConversationDataset(
+        tokenizer,
+        DATA_PATH,
+        16 * 1024,
+        system_prompt="Please reason step by step, and put your final answer within \\boxed{}.",
+    )
     # dataloader = DataLoader(dataset, batch_size=BATCH_SIZE, shuffle=True)
 
     optimizer = HybridAdam(model.parameters(), lr=LEARNING_RATE)
     # plugin = HybridParallelPlugin(
-    #     tp_size=8, 
-    #     pp_size=1, 
-    #     precision="bf16", 
-    #     zero_stage=2, 
+    #     tp_size=8,
+    #     pp_size=1,
+    #     precision="bf16",
+    #     zero_stage=2,
     #     cpu_offload=True,
     # )
     plugin = HybridParallelPlugin(
-        tp_size=4, 
-        pp_size=2, 
-        sp_size=2, 
-        enable_sequence_parallelism=True, 
-        sequence_parallelism_mode="split_gather",  
-        precision="bf16", 
-        zero_stage=1, 
-        microbatch_size=1, 
-        max_norm= 1.0,
-        enable_flash_attention=True
+        tp_size=4,
+        pp_size=2,
+        sp_size=2,
+        enable_sequence_parallelism=True,
+        sequence_parallelism_mode="split_gather",
+        precision="bf16",
+        zero_stage=1,
+        microbatch_size=1,
+        max_norm=1.0,
+        enable_flash_attention=True,
     )
 
     dataloader = plugin.prepare_dataloader(
@@ -105,38 +115,35 @@ def is_master():
     experimental_config = torch_npu.profiler._ExperimentalConfig(
         aic_metrics=torch_npu.profiler.AiCMetrics.PipeUtilization,
         profiler_level=torch_npu.profiler.ProfilerLevel.Level1,
-        l2_cache=False
+        l2_cache=False,
     )
     prof = torch_npu.profiler.profile(
-        activities=[
-            torch_npu.profiler.ProfilerActivity.CPU, 
-            torch_npu.profiler.ProfilerActivity.NPU
-        ],
+        activities=[torch_npu.profiler.ProfilerActivity.CPU, torch_npu.profiler.ProfilerActivity.NPU],
         record_shapes=True,
         profile_memory=True,
         with_stack=True,
         experimental_config=experimental_config,
         schedule=torch_npu.profiler.schedule(wait=0, warmup=2, active=1, repeat=1),
-        on_trace_ready=torch_npu.profiler.tensorboard_trace_handler("./train_profiling_data")
+        on_trace_ready=torch_npu.profiler.tensorboard_trace_handler("./train_profiling_data"),
     )
     for epoch in range(NUM_EPOCHS):
         if booster.plugin.pp_size > 1:
             data_iter = iter(dataloader)
             step_bar = tqdm(
-                    range(len(dataloader)),
-                    desc="Step",
-                    disable=not is_master(),
+                range(len(dataloader)),
+                desc="Step",
+                disable=not is_master(),
             )
             print(f"len step_bar {len(step_bar)}")
             for step in step_bar:
                 print(f"Profile Start at step {step}")
                 prof.start()
                 outputs = booster.execute_pipeline(
-                        data_iter,
-                        model,
-                        criterion=lambda outputs, inputs: outputs[0],
-                        optimizer=optimizer,
-                        return_loss=True,
+                    data_iter,
+                    model,
+                    criterion=lambda outputs, inputs: outputs[0],
+                    optimizer=optimizer,
+                    return_loss=True,
                 )
                 loss = outputs["loss"]
                 print(f"step {step} loss {loss}")
@@ -151,7 +158,7 @@ def is_master():
 
                 optimizer.step()
                 optimizer.zero_grad()
-                    
+
                 prof.step()
         else:
             total_loss = 0
@@ -177,5 +184,6 @@ def is_master():
         print(f"Profile Stop")
         prof.stop()
 
+
 if __name__ == "__main__":
     test_hybrid_qwen()
diff --git a/applications/ColossalChat/tests/test_log_prob.py b/applications/ColossalChat/tests/test_log_prob.py
index 0d7454070bdf..5e71f089cb4d 100644
--- a/applications/ColossalChat/tests/test_log_prob.py
+++ b/applications/ColossalChat/tests/test_log_prob.py
@@ -1,6 +1,8 @@
-import torch
-import time
 import random
+import time
+
+import torch
+
 
 def code1(target, vocab_start_index, vocab_end_index):
     """index Put"""
@@ -9,6 +11,7 @@ def code1(target, vocab_start_index, vocab_end_index):
     masked_target[target_mask] = 0
     return masked_target
 
+
 def code2(target, vocab_start_index, vocab_end_index):
     """bool multiply"""
     target_mask = (target < vocab_start_index) | (target >= vocab_end_index)
@@ -16,36 +19,44 @@ def code2(target, vocab_start_index, vocab_end_index):
     masked_target *= ~target_mask
     return masked_target
 
+
 def test_performance():
     batch_size = 8
     sizes = [4096, 8192, 16384, 32768, 131072]
     code1_times = []
     code2_times = []
-    
+
     for size in sizes:
-        target = torch.randint(0, size, (batch_size, size,)).to("npu")
-        vocab_start_index = random.randint(0, size//2)
-        vocab_end_index = random.randint(size//2, size)
-        
+        target = torch.randint(
+            0,
+            size,
+            (
+                batch_size,
+                size,
+            ),
+        ).to("npu")
+        vocab_start_index = random.randint(0, size // 2)
+        vocab_end_index = random.randint(size // 2, size)
+
         # warmup
         for _ in range(5):
             code1(target, vocab_start_index, vocab_end_index)
             code2(target, vocab_start_index, vocab_end_index)
-        
+
         # Code 1: index input
         start_time = time.time()
         for _ in range(10):
             code1(target, vocab_start_index, vocab_end_index)
         code1_time = (time.time() - start_time) / 10
         code1_times.append(code1_time)
-        
+
         # Code 2: bool multiply
         start_time = time.time()
         for _ in range(10):
             code2(target, vocab_start_index, vocab_end_index)
         code2_time = (time.time() - start_time) / 10
         code2_times.append(code2_time)
-        
+
         print(f"DataSize: {size}")
         print(f"  Code 1:index input AvgRuntime: {code1_time:.6f} s")
         print(f"  Code 2:bool multiply AvgRuntime {code2_time:.6f} s")
@@ -53,6 +64,6 @@ def test_performance():
         print(f"  acceleration ratio: {(code1_time/code2_time - 1)*100:.2f}%")
 
 
-if __name__ == "__main__":    
+if __name__ == "__main__":
     print("\n===== Performance Benchmark =====")
-    test_performance()
\ No newline at end of file
+    test_performance()
diff --git a/applications/ColossalChat/tests/test_ray.py b/applications/ColossalChat/tests/test_ray.py
index 16f5da507e88..9868c6ed56b9 100644
--- a/applications/ColossalChat/tests/test_ray.py
+++ b/applications/ColossalChat/tests/test_ray.py
@@ -1,11 +1,13 @@
-import ray
 import time
+
+import ray
 import ray.util.collective as cc
 import torch
 from coati.distributed.comm import ray_broadcast_object, ray_broadcast_tensor_dict
 
 from colossalai.testing import parameterize
 
+
 @ray.remote(num_cpus=1, num_gpus=0, resources={"NPU": 1})
 class Worker:
     def __init__(self, rank, world_size):
@@ -13,6 +15,7 @@ def __init__(self, rank, world_size):
         self.world_size = world_size
         self.group_name = "default"
         cc.init_collective_group(world_size, rank, backend="hccl", group_name=self.group_name)
+
     def run_ray_broadcast_object(self, obj, src, device):
         # ray_broadcast_object
         received_obj = ray_broadcast_object(obj, src, device, group_name=self.group_name)
@@ -26,6 +29,7 @@ def run_ray_broadcast_tensor_dict(self, tensor_dict, src, device):
     def destroy_worker(self):
         cc.destroy_collective_group(self.group_name)
 
+
 @parameterize(
     "test_config",
     [
@@ -37,7 +41,7 @@ def destroy_worker(self):
     ],
 )
 def test_comm(test_config):
-    #ray.init()
+    # ray.init()
     ray.init(address="local", namespace="ray-example")
     # ray.init(_node_ip_address='10.0.0.5', namespace="ray-example")
 
@@ -84,5 +88,6 @@ def test_comm(test_config):
         worker.destroy_worker.remote()
     ray.shutdown()
 
+
 if __name__ == "__main__":
-    test_comm()
\ No newline at end of file
+    test_comm()
diff --git a/applications/ColossalChat/tests/test_ray_vllm.py b/applications/ColossalChat/tests/test_ray_vllm.py
index a0d1270db229..37ea241dee4c 100644
--- a/applications/ColossalChat/tests/test_ray_vllm.py
+++ b/applications/ColossalChat/tests/test_ray_vllm.py
@@ -1,22 +1,25 @@
-import ray
+import argparse
 import time
+
+import ray
 import ray.util.collective as cc
 import torch
-from coati.distributed.comm import ray_broadcast_object, ray_broadcast_tensor_dict
+from coati.distributed.comm import ray_broadcast_tensor_dict
+from vllm import LLM, SamplingParams
 
 from colossalai.testing import parameterize
 
-from vllm import LLM, SamplingParams
-import torch
-import argparse
-
-parser = argparse.ArgumentParser(description='VLLM args.')
-parser.add_argument("-m", "--model_path", type=str, default="/home/duanjunwen/models/Qwen/Qwen2.5-14B", help="The model path. ")
+parser = argparse.ArgumentParser(description="VLLM args.")
+parser.add_argument(
+    "-m", "--model_path", type=str, default="/home/duanjunwen/models/Qwen/Qwen2.5-14B", help="The model path. "
+)
 parser.add_argument("-l", "--max_length", type=int, default=8192, help="Max sequence length")
 parser.add_argument("-w", "--world_size", type=int, default=8, help="Gpu nums")
 parser.add_argument("-t", "--temperature", type=float, default=0.8, help="Temperature")
 parser.add_argument("--top_p", type=float, default=0.95, help="Top p")
-parser.add_argument("-i", "--input_texts", type=str, default="Find all prime numbers up to 100.", help="Prompts inputs. ")
+parser.add_argument(
+    "-i", "--input_texts", type=str, default="Find all prime numbers up to 100.", help="Prompts inputs. "
+)
 args = parser.parse_args()
 
 # Create a sampling params object.
@@ -30,7 +33,9 @@ def __init__(self, rank, world_size):
         self.group_name = "default"
         cc.init_collective_group(world_size, rank, backend="hccl", group_name=self.group_name)
         self.llm = LLM(model=args.model_path, max_model_len=args.max_length, tensor_parallel_size=args.world_size)
-        self.sampling_params = SamplingParams(temperature=args.temperature, top_p=args.top_p, max_tokens=args.max_length)
+        self.sampling_params = SamplingParams(
+            temperature=args.temperature, top_p=args.top_p, max_tokens=args.max_length
+        )
 
     def run_ray_broadcast_object(self, obj, src, device):
         # Create an LLM.
@@ -45,6 +50,7 @@ def run_ray_broadcast_tensor_dict(self, tensor_dict, src, device):
     def destroy_worker(self):
         cc.destroy_collective_group(self.group_name)
 
+
 @parameterize(
     "test_config",
     [
@@ -75,13 +81,13 @@ def test_comm(test_config):
     torch.npu.synchronize()
     start_time = time.time()
     results = [worker.run_ray_broadcast_object.remote(test_obj, src, device) for worker in workers]
-    
+
     # get result
     results = ray.get(results)
 
     end_time = time.time()
     total_time = end_time - start_time
-    
+
     print(f"total_time {total_time}")
 
     for i, result in enumerate(results):
@@ -92,5 +98,6 @@ def test_comm(test_config):
         worker.destroy_worker.remote()
     ray.shutdown()
 
+
 if __name__ == "__main__":
     test_comm()
diff --git a/applications/ColossalChat/tests/test_vllm.py b/applications/ColossalChat/tests/test_vllm.py
index 325ddc0a9693..fc24cf1222de 100644
--- a/applications/ColossalChat/tests/test_vllm.py
+++ b/applications/ColossalChat/tests/test_vllm.py
@@ -1,22 +1,31 @@
-from vllm import LLM, SamplingParams
-import torch
 import argparse
 
-parser = argparse.ArgumentParser(description='VLLM args.')
-parser.add_argument("-m", "--model_path", type=str, default="/home/duanjunwen/models/Qwen/Qwen2.5-14B", help="The model path. ")
+from vllm import LLM, SamplingParams
+
+parser = argparse.ArgumentParser(description="VLLM args.")
+parser.add_argument(
+    "-m", "--model_path", type=str, default="/home/duanjunwen/models/Qwen/Qwen2.5-14B", help="The model path. "
+)
 parser.add_argument("-l", "--max_length", type=int, default=8192, help="Max sequence length")
 parser.add_argument("-tp", "--tp_size", type=int, default=8, help="Gpu nums")
 parser.add_argument("-pp", "--pp_size", type=int, default=2, help="Gpu nums")
 parser.add_argument("-t", "--temperature", type=float, default=0.8, help="Temperature")
 parser.add_argument("--top_p", type=float, default=0.95, help="Top p")
-parser.add_argument("-i", "--input_texts", type=str, default="Find all prime numbers up to 100.", help="Prompts inputs. ")
+parser.add_argument(
+    "-i", "--input_texts", type=str, default="Find all prime numbers up to 100.", help="Prompts inputs. "
+)
 args = parser.parse_args()
 
 # Create a sampling params object.
 sampling_params = SamplingParams(temperature=args.temperature, top_p=args.top_p, max_tokens=args.max_length)
 
 # Create an LLM.
-llm = LLM(model=args.model_path, max_model_len=args.max_length, tensor_parallel_size=args.tp_size, pipeline_parallel_size=args.pp_size)
+llm = LLM(
+    model=args.model_path,
+    max_model_len=args.max_length,
+    tensor_parallel_size=args.tp_size,
+    pipeline_parallel_size=args.pp_size,
+)
 # Generate texts from the prompts. The output is a list of RequestOutput objects
 # that contain the prompt, generated text, and other information.
 outputs = llm.generate(args.input_texts, sampling_params)
@@ -24,4 +33,4 @@
 for output in outputs:
     prompt = output.prompt
     generated_text = output.outputs[0].text
-    print(f"Prompt: {prompt!r}, Generated text: {generated_text}")
\ No newline at end of file
+    print(f"Prompt: {prompt!r}, Generated text: {generated_text}")
diff --git a/applications/ColossalChat/tests/test_vllm_multinode.py b/applications/ColossalChat/tests/test_vllm_multinode.py
index 0434c48e1e92..41c241890968 100644
--- a/applications/ColossalChat/tests/test_vllm_multinode.py
+++ b/applications/ColossalChat/tests/test_vllm_multinode.py
@@ -11,11 +11,9 @@
 import ray
 from packaging.version import Version
 from ray.util.scheduling_strategies import PlacementGroupSchedulingStrategy
-
 from vllm import LLM, SamplingParams
 
-assert Version(ray.__version__) >= Version(
-    "2.22.0"), "Ray version must be at least 2.22.0"
+assert Version(ray.__version__) >= Version("2.22.0"), "Ray version must be at least 2.22.0"
 
 # Create a sampling params object.
 sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
@@ -32,8 +30,7 @@ class LLMPredictor:
 
     def __init__(self):
         # Create an LLM.
-        self.llm = LLM(model="meta-llama/Llama-2-7b-chat-hf",
-                       tensor_parallel_size=tensor_parallel_size)
+        self.llm = LLM(model="meta-llama/Llama-2-7b-chat-hf", tensor_parallel_size=tensor_parallel_size)
 
     def __call__(self, batch: Dict[str, np.ndarray]) -> Dict[str, list]:
         # Generate texts from the prompts.
@@ -44,7 +41,7 @@ def __call__(self, batch: Dict[str, np.ndarray]) -> Dict[str, list]:
         generated_text: List[str] = []
         for output in outputs:
             prompt.append(output.prompt)
-            generated_text.append(' '.join([o.text for o in output.outputs]))
+            generated_text.append(" ".join([o.text for o in output.outputs]))
         return {
             "prompt": prompt,
             "generated_text": generated_text,
@@ -61,14 +58,10 @@ def __call__(self, batch: Dict[str, np.ndarray]) -> Dict[str, list]:
 def scheduling_strategy_fn():
     # One bundle per tensor parallel worker
     pg = ray.util.placement_group(
-        [{
-            "GPU": 1,
-            "CPU": 1
-        }] * tensor_parallel_size,
+        [{"GPU": 1, "CPU": 1}] * tensor_parallel_size,
         strategy="STRICT_PACK",
     )
-    return dict(scheduling_strategy=PlacementGroupSchedulingStrategy(
-        pg, placement_group_capture_child_tasks=True))
+    return dict(scheduling_strategy=PlacementGroupSchedulingStrategy(pg, placement_group_capture_child_tasks=True))
 
 
 resources_kwarg: Dict[str, Any] = {}
@@ -105,4 +98,4 @@ def scheduling_strategy_fn():
 # Multiple files would be written to the output destination,
 # and each task would write one or more files separately.
 #
-# ds.write_parquet("s3://<your-output-bucket>")
\ No newline at end of file
+# ds.write_parquet("s3://<your-output-bucket>")
diff --git a/colossalai/shardformer/layer/loss.py b/colossalai/shardformer/layer/loss.py
index cf138aeb0bb2..1ef7f219a7e0 100644
--- a/colossalai/shardformer/layer/loss.py
+++ b/colossalai/shardformer/layer/loss.py
@@ -194,7 +194,7 @@ def forward(
         masked_target *= ~mask
         masked_target_1d = masked_target.view(-1).contiguous()
         handle.wait()
- 
+
         ##################
         # Step3:Calculate global summation exp logits
         ##################
diff --git a/colossalai/shardformer/modeling/qwen2.py b/colossalai/shardformer/modeling/qwen2.py
index a8e561409f5d..78d1ba00f0e0 100644
--- a/colossalai/shardformer/modeling/qwen2.py
+++ b/colossalai/shardformer/modeling/qwen2.py
@@ -144,15 +144,15 @@ def qwen2_model_forward(
         # for the other stages, hidden_states is the output of the previous stage
         if shard_config.enable_flash_attention:
             # in this case, attention_mask is a dict rather than a tensor
-            mask_shape = (batch_size, 1, seq_length, seq_length_with_past)
+            (batch_size, 1, seq_length, seq_length_with_past)
             attention_mask = None
-            #attention_mask = ColoAttention.prepare_attn_kwargs(
+            # attention_mask = ColoAttention.prepare_attn_kwargs(
             #    mask_shape,
             #    hidden_states.dtype,
             #    hidden_states.device,
             #    q_padding_mask=attention_mask,
             #    is_causal=True,
-            #)
+            # )
         else:
             if self._attn_implementation == "flash_attention_2":
                 # 2d mask is passed through the layers
@@ -523,7 +523,7 @@ def forward(
             key_states = all_to_all_comm(key_states, sp_group, fp8_communication=shard_config.fp8_communication)
             value_states = all_to_all_comm(value_states, sp_group, fp8_communication=shard_config.fp8_communication)
             bsz, q_len, _ = query_states.size()
-        
+
         query_states = query_states.view(bsz, q_len, self.num_heads, -1).transpose(1, 2)
         key_states = key_states.view(bsz, q_len, self.num_key_value_heads, -1).transpose(1, 2)
         value_states = value_states.view(bsz, q_len, self.num_key_value_heads, -1).transpose(1, 2)
@@ -580,7 +580,16 @@ def forward(
                 diagonal=1,
             ).to(dtype=torch.bool, device="npu")
             scale = 1.0 / math.sqrt(query_states.shape[-1])
-            attn_output = torch_npu.npu_fusion_attention(query_states, key_states, value_states, head_num=query_states.size(1), input_layout="BNSD", sparse_mode=1, atten_mask=atten_mask, scale = scale)
+            attn_output = torch_npu.npu_fusion_attention(
+                query_states,
+                key_states,
+                value_states,
+                head_num=query_states.size(1),
+                input_layout="BNSD",
+                sparse_mode=1,
+                atten_mask=atten_mask,
+                scale=scale,
+            )
             attn_output = attn_output[0]
         else:
             attn_weights = torch.matmul(query_states, key_states.transpose(2, 3)) / math.sqrt(self.head_dim)
@@ -623,8 +632,6 @@ def forward(
     return forward
 
 
-
-
 def get_qwen2_flash_attention_forward(shard_config: ShardConfig, sp_mode=None, sp_size=None, sp_group=None):
     def forward(
         self: Qwen2Attention,
diff --git a/colossalai/shardformer/policies/qwen2.py b/colossalai/shardformer/policies/qwen2.py
index add00901d551..823527df61dc 100644
--- a/colossalai/shardformer/policies/qwen2.py
+++ b/colossalai/shardformer/policies/qwen2.py
@@ -19,7 +19,6 @@
 from ..modeling.qwen2 import (
     Qwen2PipelineForwards,
     get_lm_forward_with_dist_cross_entropy,
-    get_qwen2_flash_attention_forward,
     get_qwen2_flash_attention_npu_forward,
     get_qwen2_model_forward_for_flash_attn,
 )

From 260a25ac985af5ae7c5495bf4e127259512b59a8 Mon Sep 17 00:00:00 2001
From: duanjunwen <935724073@qq.com>
Date: Fri, 23 May 2025 13:22:58 +0800
Subject: [PATCH 11/24] [feat] rm comments in qwen modeling

---
 colossalai/shardformer/modeling/qwen2.py | 1 -
 1 file changed, 1 deletion(-)

diff --git a/colossalai/shardformer/modeling/qwen2.py b/colossalai/shardformer/modeling/qwen2.py
index 78d1ba00f0e0..0923cc5956a4 100644
--- a/colossalai/shardformer/modeling/qwen2.py
+++ b/colossalai/shardformer/modeling/qwen2.py
@@ -218,7 +218,6 @@ def qwen2_model_forward(
                 all_hidden_states += (hidden_states,)
 
             past_key_value = past_key_values[idx] if past_key_values is not None else None
-            print(f"######debug idx: {idx}")
 
             if idx - start_idx < num_ckpt_layers:
                 layer_outputs = self._gradient_checkpointing_func(

From 4c18679966b2bcbfcc3e4da28b929e2285022c55 Mon Sep 17 00:00:00 2001
From: YeAnbang <44796419+YeAnbang@users.noreply.github.com>
Date: Fri, 23 May 2025 15:56:52 +0800
Subject: [PATCH 12/24] [Doc] Drafted README.md

---
 .../ColossalChat/coati/distributed/README.md  | 180 +++++++++++++++++-
 1 file changed, 177 insertions(+), 3 deletions(-)

diff --git a/applications/ColossalChat/coati/distributed/README.md b/applications/ColossalChat/coati/distributed/README.md
index b7bac2b2db93..5e93a564d241 100644
--- a/applications/ColossalChat/coati/distributed/README.md
+++ b/applications/ColossalChat/coati/distributed/README.md
@@ -1,6 +1,180 @@
-# Requirements
+Here's a clean and detailed `README.md` for your distributed RL framework:
+
+---
+
+# Distributed RL Framework for Language Model Fine-Tuning
+
+This repository implements a distributed Reinforcement Learning (RL) training framework designed to fine-tune large language models using algorithms such as **GRPO** and **DAPO**. It supports multi-node and multi-GPU setups, scalable rollout generation, and policy optimization using libraries like HuggingFace Transformers or VLLM.
+
+---
+
+## 🚀 Features
+
+* **Distributed Training with Ray**: Scalable to multiple machines and GPUs.
+* **Support for GRPO and DAPO**: Choose your preferred policy optimization algorithm.
+* **Flexible Model Backends**: Choose between `transformers` and `vllm` backends.
+* **Rollout and Policy Decoupling**: Efficient generation and consumption of data through parallel inferencer-trainer architecture.
+* **Evaluation Integration**: Easily plug in task-specific eval datasets.
+* **Checkpoints and Logging**: Configurable intervals and directories.
+
+---
+
+## 🛠 Installation
+
+Please fill this section
+
+## 🧠 Data Format
+
+Each data sample in the training or evaluation `.jsonl` file should follow this format:
+
+```json
+{
+  "messages": {
+    "role": "user",
+    "content": "Simplify $\\sqrt[3]{1+8} \\cdot \\sqrt[3]{1+\\sqrt[3]{8}}$. Let's think step by step and output the final answer within \\boxed{}."
+  },
+  "gt_answer": "3"
+}
+```
+
+---
+
+## ⚙️ Hyperparameters & Arguments
+
+| Argument         | Description                             | Example           |
+| ---------------- | --------------------------------------- | ----------------- |
+| `--model`        | Model path or identifier                | `/path/to/model` |
+| `--dataset`      | Path to training `.jsonl`               | `/path/to/train_data.jsonl`      |
+| `--eval-dataset` | JSON of task\:eval\_dataset\_path pairs | `{'eval_1':'/path/to/eval_1.jsonl'}`            |
+| `--project`      | Project name                            | `Project1`            |
+| `--num-episodes` | Number of training episodes             | `1`               |
+
+### Distributed Training
+
+| Argument                      | Description                           | Example |
+| ----------------------------- | ------------------------------------- | ------- |
+| `--num-trainers`              | Number of trainer processes           | `4`     |
+| `--num-inferencer`            | Number of inferencer processes        | `4`     |
+| `--inference-batch-size`      | Prompts per inference step            | `8`    |
+| `--inference-microbatch-size` | Per-GPU batch size for inference      | `8`     |
+| `--train-batch-size`          | Prompts per trainer step per dp group | `8`    |
+| `--train-minibatch-size`      | Mini-batch size before forward pass   | `8`     |
+| `--train-microbatch-size`     | Per-GPU batch size for training       | `2`     |
+
+### Sampling
+
+| Argument              | Description           | Example        |
+| --------------------- | --------------------- | -------------- |
+| `--backend`           | Generation backend, choose from `vllm` `transformers`    | `vllm` |
+| `--temperature`       | Sampling temperature for generation  | `1.0`          |
+| `--top-k`             | Top-K sampling parameter for generation        | `None`         |
+| `--top-p`             | Top-P sampling parameter for generation        | `1.0`          |
+| `--system-prompt`     | System prompt, default to the system prompt for `think_answer_tags` format         | `Please reason step by step, and put your final answer within \\boxed{}.`         |
+| `--max-new-tokens`    | Max generation tokens | `3584`         |
+| `--max-prompt-tokens` | Max prompt tokens     | `512`          |
+
+### GRPO Specific
+
+| Argument          | Description                  | Example             |
+| ----------------- | ---------------------------- | ------------------- |
+| `--algo`          | Algorithm (`GRPO` or `DAPO`), for more customization refer to [GRPO Settings](#️-grpo-settings) | `GRPO`              |
+| `--learning-rate` | Learning rate                | `1e-6`              |
+| `--kl-coeff`      | KL penalty coefficient       | `0.01`              |
+| `--reward-type`   | Reward signal type (choose from 'think_answer_tags', 'boxed')          | `think_answer_tags` |
+| `--eval-interval` | Evaluation interval in number of training steps (positive value to enable evaluation)         | `100`               |
+
+### Logging and Checkpointing
+
+| Argument             | Description               | Example      |
+| -------------------- | ------------------------- | ------------ |
+| `--save-interval`    | Training steps between checkpoints | `20`         |
+| `--save-dir`         | Checkpoint directory      | `./model`    |
+| `--eval-save-dir`    | Evaluation save path      | `./eval`     |
+| `--rollout-save-dir` | Rollout logs directory    | `./rollouts` |
+
+### Miscellaneous
+
+| Argument           | Description                             | Example |
+| ------------------ | --------------------------------------- | ------- |
+| `--ray_dir`        | Custom Ray temp dir of a running Ray cluster (optional)                   | `None`  |
+| `--master_address` | Master address of a running Ray cluster | `None`  |
+| `--master_port`    | Master port for torch DDP                            | `29506` |
+
+---
+
+## ⚙️ GRPO Settings
+
+In addition to the two default training settings we provided--- original `GRPO` and `DAPO`, users can customize their training by changing the following hyperparameters in `grpo_config` in `rl_example.py`.
+
+| Argument Name                 | Description                      | Default                                                                                                                                                   |
+| ----------------------------- | ---------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------- |
+| `filter_range`                | Filters out rollout group if the success rate within that group is out of this range.| `[0.01, 0.99]`                                  |
+| `dynamic_batching`            | Enables dynamic batching as described in the [DAPO paper](https://arxiv.org/abs/2503.14476).                                                                      | `True`                                         |
+| `clip_eps_low`                | epsilon_low in DAPO in equation in [DAPO paper](https://arxiv.org/abs/2503.14476)                                                   | `0.2`                                           |
+| `clip_eps_high`               | epsilon_high in DAPO equation in [DAPO paper](https://arxiv.org/abs/2503.14476)                                                 | `0.28`                                           |
+| `skip_threshold`              | If ratio is above this threshold, the sample is skipped to avoid instability.                                                   | `20.0`                                             |
+| `loss_variation`              | Type of loss variation. Supports `"token_level"` for token-wise policy gradient loss and `sample_level` for original GRPO loss.                                         |  `"token_level"`                                        |
+| `soft_over_length_punishment` | Whether to use soft overlength penalty in [DAPO paper](https://arxiv.org/abs/2503.14476) or not.                                                               | `True`                                             |
+| `cache_length`                | `L_cache` parameter for soft overlength penalty in e.q. 13 in [DAPO paper](https://arxiv.org/abs/2503.14476)                                                                          | `min(1024, int(args.max_new_tokens / 4))`                 |
+| `filter_truncated_response`    | Mask out truncated responses in loss calculation.                                       | `True`                                         |
+
+
+
+## 🔄 Constraints and Notes
+
+* `num_inferencer + num_trainer == NUM_GPUs`
+* `num_inferencer % num_trainer == 0`
+* `(num_inferencer * inference_batch_size) % (num_trainer * train_batch_size) == 0`
+* `train_batch_size >= train_minibatch_size >= train_microbatch_size`
+* `inference_batch_size >= inference_microbatch_size`
+* Set microbatch sizes based on **VRAM capacity**
+* To use tensor parallelism on inferencer
+  * set backend to `vllm`
+  * change `tensor_parallel_size` in `inference_model_config` in rl_example.py
+  * set `num_inferencer = NUM_INFERENCE_GPUs / tensor_parallel_size`
+* To set tensor parallelism / pipeline parallelism / zero stage
+  * change corresponding settings in `plugin_config` in rl_example.py
+* Ensure rollout generation rate matches trainer consumption:
+
+  ```
+  num_inferencer * inference_batch_size % (
+    num_trainer * train_batch_size /
+    train_pipeline_parallelism_size /
+    train_tensor_parallelism_size
+  ) == 0
+  ```
+* Model weights sync every:
+
+  ```
+  (num_inferencer * inference_batch_size) /
+  (num_trainer * train_batch_size /
+    train_pipeline_parallelism_size /
+    train_tensor_parallelism_size)
+  ```
+
+---
+
+## 🧪 Example: single machine 8-GPU Zero2 Strategy
 
 ```bash
-pip install cupy-cuda12x
-python -m cupyx.tools.install_library --cuda 12.x --library nccl
+python rl_example.py \
+  --dataset /path/to/train_data.jsonl \
+  --model /path/to/Qwen2.5-Math-7B/ \
+  -t 4 -i 4 \
+  -b vllm \
+  -a DAPO \
+  -ibs 8 -tbs 8 -e 2 \
+  -rt boxed \
+  -si 15 \
+  -s "Please reason step by step, and put your final answer within \\boxed{}." \
+  -tMbs 8 \
+  -p GRPO-Reward-Debug \
+  -ei 5 \
+  -ed '{"Math_500_level_1": "path/to/math_500_level_1.jsonl", "Ma1h_500_level_3": "path/to/math_500_level_3.jsonl"}'
 ```
+
+## 🧪 Example: multi-machine TP+PP Strategy
+
+Please add examples for starting ray cluster and training
+---
+

From 9a511aa9713fca033b7528f031b88873f11761ca Mon Sep 17 00:00:00 2001
From: "pre-commit-ci[bot]"
 <66853113+pre-commit-ci[bot]@users.noreply.github.com>
Date: Fri, 23 May 2025 07:57:47 +0000
Subject: [PATCH 13/24] [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci
---
 applications/ColossalChat/coati/distributed/README.md | 1 -
 1 file changed, 1 deletion(-)

diff --git a/applications/ColossalChat/coati/distributed/README.md b/applications/ColossalChat/coati/distributed/README.md
index 5e93a564d241..1f67979b9723 100644
--- a/applications/ColossalChat/coati/distributed/README.md
+++ b/applications/ColossalChat/coati/distributed/README.md
@@ -177,4 +177,3 @@ python rl_example.py \
 
 Please add examples for starting ray cluster and training
 ---
-

From 61aa1fc826141faa60973eca9bc8965639c3fa21 Mon Sep 17 00:00:00 2001
From: duanjunwen <935724073@qq.com>
Date: Fri, 23 May 2025 16:21:28 +0800
Subject: [PATCH 14/24] [feat] fix ascend readme format

---
 .../ColossalChat/ColossalaiRL_On_Ascend.md    |  95 ----------------
 .../ColossalChat/coati/distributed/README.md  | 107 +++++++++++++++++-
 2 files changed, 101 insertions(+), 101 deletions(-)
 delete mode 100644 applications/ColossalChat/ColossalaiRL_On_Ascend.md

diff --git a/applications/ColossalChat/ColossalaiRL_On_Ascend.md b/applications/ColossalChat/ColossalaiRL_On_Ascend.md
deleted file mode 100644
index 28cf637fd5a9..000000000000
--- a/applications/ColossalChat/ColossalaiRL_On_Ascend.md
+++ /dev/null
@@ -1,95 +0,0 @@
-# ColossalaiRL On Ascend
-The document is the instructions for using ColossalRL on Ascend.
-
-## 1.Prepare Develop Environment
-
-### Install Colossalai & ColossalChat
-```bash
-git clone https://github.com/hpcaitech/ColossalAI.git
-git checkout grpo-latest
-pip install -e .
-
-cd ./applications/ColossalChat
-pip install -e .
-```
-
-### Install Fuyao Ray
-Please update CANN before install fuyao ray
-```bash
-# Install CANN
-source /usr/local/Ascend/ascend-toolkit/set_env.sh
-./Ascend-cann-kernels-910b_8.1.RC1.alpha001_linux-aarch64.run  --devel
-
-# Clone Fuyao Ray
-git clone https://gitee.com/openfuyao/ray.git
-cd ray
-git pull origin pull/5/head
-
-# Install ray
-pip install ray==2.43.0 --no-cache-dir
-
-# Create soft-link from fuyao-ray to ray site-package
-cd ..
-ln -s ./ray/python/ray/ /usr/local/python3.10/lib/python3.10/site-packages/ray
-
-# Install Fuyao Ray
-cd ray
-python python/ray/setup-dev.py
-```
-### Prepare Model & dataset
-
-```bash
-huggingface-cli download --local-dir-use-symlinks False Qwen/Qwen2.5-7B --local-dir /models/Qwen/Qwen2.5-7B
-```
-
-
-## 2.Set Distributed Config
-Now, we need to set distributed config for multi-node.
-
-### Set Host IP Config
-First, we set host ip config.
-For example. I need to configure a cluster of 4 nodes, then I do
-```bash
-vim /etc/hosts
-```
-Then write IP node map to /etc/hosts
-```bash
-10.0.0.3 npu-3
-10.0.0.4 npu-4
-10.0.0.5 npu-5
-10.0.0.6 npu-6
-```
-
-### Set Ascend Multi-Node Config
-
-```bash
-export ATB_LLM_HCCL_ENABLE=1
-export ATB_LLM_COMM_BACKEND="hccl"
-export HCCL_CONNECT_TIMEOUT=7200
-export WORLD_SIZE=32
-export HCCL_EXEC_TIMEOUT=7200
-export HCCL_SOCKET_IFNAME=eno0
-export RAY_COLLECTIVE_MEET_TIMEOUT_SECONDS=7200
-```
-
-## 3.Run task on ColossalaiRL-Ascend
-
-### Start Ray Cluster
-Now we use 10.0.0.3 as master node. First we start a ray cluster on 10.0.0.3:
-```bash
-ray start --head --node-ip-address=10.0.0.3
-```
-Then, for each slave node (10.0.0.4/10.0.0.5/10.0.0.6), we add to the ray cluser by following code:
-```bash
-ray start --address='10.0.0.3:6379'
-```
-
-### Run Scripts
-Then, run start command at master node
-```bash
-# Hint1: replace /models/Qwen/Qwen2.5-7B to your model path
-#        replace /datasets/train-alignment.jsonl to your dataset path
-python rl_example.py -m /models/Qwen/Qwen2.5-7B -d /datasets/train-alignment.jsonl --master_address '10.0.0.3' -t 16 -i 16 -p GRPO-Train-Align-Debug -g 2 -ibs 1 -tbs 2 -tMbs 1  -tmbs 2 -imbs 1 -b vllm -e 2 -rt boxed -s "Please reason step by step, and put your final answer within \\boxed{}." &>run_log.log &
-```
-
-<!-- doc-test-command: echo  -->
diff --git a/applications/ColossalChat/coati/distributed/README.md b/applications/ColossalChat/coati/distributed/README.md
index 1f67979b9723..5e4922deb703 100644
--- a/applications/ColossalChat/coati/distributed/README.md
+++ b/applications/ColossalChat/coati/distributed/README.md
@@ -1,7 +1,3 @@
-Here's a clean and detailed `README.md` for your distributed RL framework:
-
----
-
 # Distributed RL Framework for Language Model Fine-Tuning
 
 This repository implements a distributed Reinforcement Learning (RL) training framework designed to fine-tune large language models using algorithms such as **GRPO** and **DAPO**. It supports multi-node and multi-GPU setups, scalable rollout generation, and policy optimization using libraries like HuggingFace Transformers or VLLM.
@@ -21,7 +17,73 @@ This repository implements a distributed Reinforcement Learning (RL) training fr
 
 ## 🛠 Installation
 
-Please fill this section
+### Prepare Develop Environment
+
+Install Colossalai & ColossalChat
+```bash
+git clone https://github.com/hpcaitech/ColossalAI.git
+git checkout grpo-latest
+pip install -e .
+
+cd ./applications/ColossalChat
+pip install -e .
+```
+Install Fuyao Ray.
+Please update CANN before install fuyao ray
+```bash
+# Install CANN
+source /usr/local/Ascend/ascend-toolkit/set_env.sh
+./Ascend-cann-kernels-910b_8.1.RC1.alpha001_linux-aarch64.run  --devel
+
+# Clone Fuyao Ray
+git clone https://gitee.com/openfuyao/ray.git
+cd ray
+git pull origin pull/5/head
+
+# Install ray
+pip install ray==2.43.0 --no-cache-dir
+
+# Create soft-link from fuyao-ray to ray site-package
+cd ..
+ln -s ./ray/python/ray/ /usr/local/python3.10/lib/python3.10/site-packages/ray
+
+# Install Fuyao Ray
+cd ray
+python python/ray/setup-dev.py
+```
+Prepare Model & dataset
+
+```bash
+huggingface-cli download --local-dir-use-symlinks False Qwen/Qwen2.5-7B --local-dir /models/Qwen/Qwen2.5-7B
+```
+
+### Set Distributed Config
+Now, we need to set distributed config for multi-node.
+
+First, we set host ip config.
+For example. I need to configure a cluster of 4 nodes, then I do
+```bash
+vim /etc/hosts
+```
+Then write IP node map to /etc/hosts
+```bash
+10.0.0.3 npu-3
+10.0.0.4 npu-4
+10.0.0.5 npu-5
+10.0.0.6 npu-6
+```
+
+Set Ascend Multi-Node Config
+
+```bash
+export ATB_LLM_HCCL_ENABLE=1
+export ATB_LLM_COMM_BACKEND="hccl"
+export HCCL_CONNECT_TIMEOUT=7200
+export WORLD_SIZE=32
+export HCCL_EXEC_TIMEOUT=7200
+export HCCL_SOCKET_IFNAME=eno0
+export RAY_COLLECTIVE_MEET_TIMEOUT_SECONDS=7200
+```
 
 ## 🧠 Data Format
 
@@ -175,5 +237,38 @@ python rl_example.py \
 
 ## 🧪 Example: multi-machine TP+PP Strategy
 
-Please add examples for starting ray cluster and training
+### Create ray cluster on multi-machine 
+
+Now we use 10.0.0.3 as master node. First we start a ray cluster on 10.0.0.3:
+```bash
+ray start --head --node-ip-address=10.0.0.3
+```
+
+Then, for each slave node (10.0.0.4/10.0.0.5/10.0.0.6), we add to the ray cluser by following code:
+```bash
+ray start --address='10.0.0.3:6379'
+```
+
+```bash
+# Hint1: replace /models/Qwen/Qwen2.5-7B to your model path
+#        replace /datasets/train-alignment.jsonl to your dataset path
+python rl_example.py 
+-m /path/to/Qwen2.5-Math-7B/ \
+-d /path/to/train_data.jsonl \ 
+--master_address '10.0.0.3' 
+-t 16 \ 
+-i 16 \ 
+-p GRPO-Train-Align-Debug \ 
+-g 2 \ 
+-ibs 1 \ 
+-tbs 2 \ 
+-tMbs 1 \ 
+-tmbs 2 \ 
+-imbs 1 \ 
+-b vllm \ 
+-e 2 \ 
+-rt boxed \ 
+-s "Please reason step by step, and put your final answer within \\boxed{}." 
+```
+
 ---

From e4eedf9e628f09458eea08a6dc513b2fc19e696e Mon Sep 17 00:00:00 2001
From: "pre-commit-ci[bot]"
 <66853113+pre-commit-ci[bot]@users.noreply.github.com>
Date: Fri, 23 May 2025 08:24:09 +0000
Subject: [PATCH 15/24] [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci
---
 .../ColossalChat/coati/distributed/README.md  | 34 +++++++++----------
 1 file changed, 17 insertions(+), 17 deletions(-)

diff --git a/applications/ColossalChat/coati/distributed/README.md b/applications/ColossalChat/coati/distributed/README.md
index 5e4922deb703..68060028caf4 100644
--- a/applications/ColossalChat/coati/distributed/README.md
+++ b/applications/ColossalChat/coati/distributed/README.md
@@ -237,7 +237,7 @@ python rl_example.py \
 
 ## 🧪 Example: multi-machine TP+PP Strategy
 
-### Create ray cluster on multi-machine 
+### Create ray cluster on multi-machine
 
 Now we use 10.0.0.3 as master node. First we start a ray cluster on 10.0.0.3:
 ```bash
@@ -252,23 +252,23 @@ ray start --address='10.0.0.3:6379'
 ```bash
 # Hint1: replace /models/Qwen/Qwen2.5-7B to your model path
 #        replace /datasets/train-alignment.jsonl to your dataset path
-python rl_example.py 
+python rl_example.py
 -m /path/to/Qwen2.5-Math-7B/ \
--d /path/to/train_data.jsonl \ 
---master_address '10.0.0.3' 
--t 16 \ 
--i 16 \ 
--p GRPO-Train-Align-Debug \ 
--g 2 \ 
--ibs 1 \ 
--tbs 2 \ 
--tMbs 1 \ 
--tmbs 2 \ 
--imbs 1 \ 
--b vllm \ 
--e 2 \ 
--rt boxed \ 
--s "Please reason step by step, and put your final answer within \\boxed{}." 
+-d /path/to/train_data.jsonl \
+--master_address '10.0.0.3'
+-t 16 \
+-i 16 \
+-p GRPO-Train-Align-Debug \
+-g 2 \
+-ibs 1 \
+-tbs 2 \
+-tMbs 1 \
+-tmbs 2 \
+-imbs 1 \
+-b vllm \
+-e 2 \
+-rt boxed \
+-s "Please reason step by step, and put your final answer within \\boxed{}."
 ```
 
 ---

From 2688954728f182f9877bb89317c80286243e7558 Mon Sep 17 00:00:00 2001
From: duanjunwen <935724073@qq.com>
Date: Mon, 26 May 2025 18:12:37 +0800
Subject: [PATCH 16/24] [fix] fix readme

---
 .../ColossalChat/coati/distributed/README.md  | 77 +++++++++++--------
 applications/ColossalChat/requirements.txt    | 10 ++-
 applications/ColossalChat/rl_example.py       |  6 --
 colossalai/shardformer/layer/loss.py          |  3 +-
 colossalai/shardformer/modeling/qwen2.py      |  8 +-
 5 files changed, 58 insertions(+), 46 deletions(-)

diff --git a/applications/ColossalChat/coati/distributed/README.md b/applications/ColossalChat/coati/distributed/README.md
index 68060028caf4..54f13a631f12 100644
--- a/applications/ColossalChat/coati/distributed/README.md
+++ b/applications/ColossalChat/coati/distributed/README.md
@@ -8,7 +8,7 @@ This repository implements a distributed Reinforcement Learning (RL) training fr
 
 * **Distributed Training with Ray**: Scalable to multiple machines and GPUs.
 * **Support for GRPO and DAPO**: Choose your preferred policy optimization algorithm.
-* **Flexible Model Backends**: Choose between `transformers` and `vllm` backends.
+* **Model Backends**: Support `vllm` as inference backends.
 * **Rollout and Policy Decoupling**: Efficient generation and consumption of data through parallel inferencer-trainer architecture.
 * **Evaluation Integration**: Easily plug in task-specific eval datasets.
 * **Checkpoints and Logging**: Configurable intervals and directories.
@@ -22,7 +22,7 @@ This repository implements a distributed Reinforcement Learning (RL) training fr
 Install Colossalai & ColossalChat
 ```bash
 git clone https://github.com/hpcaitech/ColossalAI.git
-git checkout grpo-latest
+git checkout grpo-latest-ascend
 pip install -e .
 
 cd ./applications/ColossalChat
@@ -35,7 +35,7 @@ Please update CANN before install fuyao ray
 source /usr/local/Ascend/ascend-toolkit/set_env.sh
 ./Ascend-cann-kernels-910b_8.1.RC1.alpha001_linux-aarch64.run  --devel
 
-# Clone Fuyao Ray
+# Clone Fuyao Ray. Fuyao Ray is not an open source project, it will be inherited in the ColossalRL images.
 git clone https://gitee.com/openfuyao/ray.git
 cd ray
 git pull origin pull/5/head
@@ -51,8 +51,8 @@ ln -s ./ray/python/ray/ /usr/local/python3.10/lib/python3.10/site-packages/ray
 cd ray
 python python/ray/setup-dev.py
 ```
-Prepare Model & dataset
 
+Prepare Model & dataset
 ```bash
 huggingface-cli download --local-dir-use-symlinks False Qwen/Qwen2.5-7B --local-dir /models/Qwen/Qwen2.5-7B
 ```
@@ -221,25 +221,27 @@ In addition to the two default training settings we provided--- original `GRPO`
 ```bash
 python rl_example.py \
   --dataset /path/to/train_data.jsonl \
-  --model /path/to/Qwen2.5-Math-7B/ \
+  --model /path/to/Qwen2.5-3B/ \
   -t 4 -i 4 \
   -b vllm \
-  -a DAPO \
-  -ibs 8 -tbs 8 -e 2 \
+  -ibs 2 -tbs 4 -tMbs 1 -tmbs 4 -imbs 1 \
   -rt boxed \
-  -si 15 \
+  -g 4 \ 
+  -ibs 1 \ 
+  -tbs 2 \ 
+  -tMbs 1 \ 
+  -tmbs 2 \ 
+  -imbs 1 \ 
   -s "Please reason step by step, and put your final answer within \\boxed{}." \
   -tMbs 8 \
-  -p GRPO-Reward-Debug \
-  -ei 5 \
-  -ed '{"Math_500_level_1": "path/to/math_500_level_1.jsonl", "Ma1h_500_level_3": "path/to/math_500_level_3.jsonl"}'
+  -p GRPO-Train-Align-Debug \
 ```
 
 ## 🧪 Example: multi-machine TP+PP Strategy
 
-### Create ray cluster on multi-machine
-
-Now we use 10.0.0.3 as master node. First we start a ray cluster on 10.0.0.3:
+### Create ray cluster on multi-machine 
+For example, now we have 4 nodes and their IPs are 10.0.0.3, 10.0.0.4, 10.0.0.5, 10.0.0.6.
+We use 10.0.0.3 as master node. First we start a ray cluster on 10.0.0.3:
 ```bash
 ray start --head --node-ip-address=10.0.0.3
 ```
@@ -249,26 +251,39 @@ Then, for each slave node (10.0.0.4/10.0.0.5/10.0.0.6), we add to the ray cluser
 ray start --address='10.0.0.3:6379'
 ```
 
+Modify plugin_config in ./applications/ColossalChat/rl_example.py 
+```python
+plugin_config={
+  "tp_size": 4,
+  "pp_size": 2,
+  "microbatch_size": max(
+    1, args.train_microbatch_size // 2
+  ),  # microbatch size should be set to train_microbatch_size // pp_size
+  "zero_stage": 1,
+  "max_norm": 1.0,
+  },  # for pp, tp
+```
+
 ```bash
 # Hint1: replace /models/Qwen/Qwen2.5-7B to your model path
 #        replace /datasets/train-alignment.jsonl to your dataset path
-python rl_example.py
--m /path/to/Qwen2.5-Math-7B/ \
--d /path/to/train_data.jsonl \
---master_address '10.0.0.3'
--t 16 \
--i 16 \
--p GRPO-Train-Align-Debug \
--g 2 \
--ibs 1 \
--tbs 2 \
--tMbs 1 \
--tmbs 2 \
--imbs 1 \
--b vllm \
--e 2 \
--rt boxed \
--s "Please reason step by step, and put your final answer within \\boxed{}."
+python rl_example.py 
+  -m /path/to/Qwen2.5-Math-7B/ \
+  -d /path/to/train_data.jsonl \ 
+  --master_address '10.0.0.3' 
+  -t 16 \ 
+  -i 16 \ 
+  -p GRPO-Train-Align-Debug \ 
+  -g 2 \ 
+  -ibs 1 \ 
+  -tbs 2 \ 
+  -tMbs 1 \ 
+  -tmbs 2 \ 
+  -imbs 1 \ 
+  -b vllm \ 
+  -e 2 \ 
+  -rt boxed \ 
+  -s "Please reason step by step, and put your final answer within \\boxed{}." 
 ```
 
 ---
diff --git a/applications/ColossalChat/requirements.txt b/applications/ColossalChat/requirements.txt
index 472080101b9b..849a6228877d 100755
--- a/applications/ColossalChat/requirements.txt
+++ b/applications/ColossalChat/requirements.txt
@@ -1,9 +1,9 @@
-transformers==4.39.3
+transformers==4.47.0
 tqdm
 datasets==2.14.7
 loralib
 colossalai>=0.4.7
-torch>=2.1.0
+torch==2.5.1
 langchain
 tokenizers
 fastapi
@@ -22,3 +22,9 @@ sentencepiece==0.1.99
 flash-attn
 tiktoken
 jsonlines
+math-verify==0.7.0
+
+# The following packages be built into the image.
+# torch_npu==2.5.1
+# fuyao-ray==2.43.0
+# vllm-ascend==0.7.3
\ No newline at end of file
diff --git a/applications/ColossalChat/rl_example.py b/applications/ColossalChat/rl_example.py
index 472c13e94ff0..6be66c1c6e03 100644
--- a/applications/ColossalChat/rl_example.py
+++ b/applications/ColossalChat/rl_example.py
@@ -248,9 +248,6 @@
         num_generations=args.num_generations,
         train_model_config=train_model_config,
         grpo_config=grpo_config,
-        # plugin_config={
-        #     "zero_stage": 2,
-        # },  # for zero
         plugin_config={
             "tp_size": 2,
             "pp_size": 2,
@@ -259,9 +256,6 @@
             ),  # microbatch size should be set to train_microbatch_size // pp_size
             "zero_stage": 1,
             "max_norm": 1.0,
-            # "sp_size": 4,
-            # "enable_sequence_parallelism":True,
-            # "sequence_parallelism_mode":"split_gather" # ["split_gather", "ring", "all_to_all"]
         },  # for pp, tp
         inference_backend=args.backend,
         master_addr="localhost",
diff --git a/colossalai/shardformer/layer/loss.py b/colossalai/shardformer/layer/loss.py
index 1ef7f219a7e0..a9bb76fc7d6b 100644
--- a/colossalai/shardformer/layer/loss.py
+++ b/colossalai/shardformer/layer/loss.py
@@ -190,8 +190,7 @@ def forward(
         # mask
         mask = (target < down_threshold) | (target >= up_threshold)
         masked_target = target.clone() - down_threshold
-        # masked_target[mask] = 0
-        masked_target *= ~mask
+        masked_target[mask] = 0
         masked_target_1d = masked_target.view(-1).contiguous()
         handle.wait()
 
diff --git a/colossalai/shardformer/modeling/qwen2.py b/colossalai/shardformer/modeling/qwen2.py
index 0923cc5956a4..67d77757df95 100644
--- a/colossalai/shardformer/modeling/qwen2.py
+++ b/colossalai/shardformer/modeling/qwen2.py
@@ -574,10 +574,6 @@ def forward(
         value_states = repeat_kv(value_states, self.num_key_value_groups)
 
         if shard_config.enable_flash_attention:
-            atten_mask = torch.triu(
-                torch.ones(q_len, q_len),
-                diagonal=1,
-            ).to(dtype=torch.bool, device="npu")
             scale = 1.0 / math.sqrt(query_states.shape[-1])
             attn_output = torch_npu.npu_fusion_attention(
                 query_states,
@@ -586,8 +582,10 @@ def forward(
                 head_num=query_states.size(1),
                 input_layout="BNSD",
                 sparse_mode=1,
-                atten_mask=atten_mask,
+                atten_mask=None,
                 scale=scale,
+                pre_tockens=65536,
+                next_tockens=65536,
             )
             attn_output = attn_output[0]
         else:

From 86715658b1b7fb0283894f1012eaddf11125b5dd Mon Sep 17 00:00:00 2001
From: "pre-commit-ci[bot]"
 <66853113+pre-commit-ci[bot]@users.noreply.github.com>
Date: Mon, 26 May 2025 10:15:44 +0000
Subject: [PATCH 17/24] [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci
---
 .../ColossalChat/coati/distributed/README.md  | 48 +++++++++----------
 applications/ColossalChat/requirements.txt    |  2 +-
 2 files changed, 25 insertions(+), 25 deletions(-)

diff --git a/applications/ColossalChat/coati/distributed/README.md b/applications/ColossalChat/coati/distributed/README.md
index 54f13a631f12..d8740aaa32fa 100644
--- a/applications/ColossalChat/coati/distributed/README.md
+++ b/applications/ColossalChat/coati/distributed/README.md
@@ -226,12 +226,12 @@ python rl_example.py \
   -b vllm \
   -ibs 2 -tbs 4 -tMbs 1 -tmbs 4 -imbs 1 \
   -rt boxed \
-  -g 4 \ 
-  -ibs 1 \ 
-  -tbs 2 \ 
-  -tMbs 1 \ 
-  -tmbs 2 \ 
-  -imbs 1 \ 
+  -g 4 \
+  -ibs 1 \
+  -tbs 2 \
+  -tMbs 1 \
+  -tmbs 2 \
+  -imbs 1 \
   -s "Please reason step by step, and put your final answer within \\boxed{}." \
   -tMbs 8 \
   -p GRPO-Train-Align-Debug \
@@ -239,7 +239,7 @@ python rl_example.py \
 
 ## 🧪 Example: multi-machine TP+PP Strategy
 
-### Create ray cluster on multi-machine 
+### Create ray cluster on multi-machine
 For example, now we have 4 nodes and their IPs are 10.0.0.3, 10.0.0.4, 10.0.0.5, 10.0.0.6.
 We use 10.0.0.3 as master node. First we start a ray cluster on 10.0.0.3:
 ```bash
@@ -251,7 +251,7 @@ Then, for each slave node (10.0.0.4/10.0.0.5/10.0.0.6), we add to the ray cluser
 ray start --address='10.0.0.3:6379'
 ```
 
-Modify plugin_config in ./applications/ColossalChat/rl_example.py 
+Modify plugin_config in ./applications/ColossalChat/rl_example.py
 ```python
 plugin_config={
   "tp_size": 4,
@@ -267,23 +267,23 @@ plugin_config={
 ```bash
 # Hint1: replace /models/Qwen/Qwen2.5-7B to your model path
 #        replace /datasets/train-alignment.jsonl to your dataset path
-python rl_example.py 
+python rl_example.py
   -m /path/to/Qwen2.5-Math-7B/ \
-  -d /path/to/train_data.jsonl \ 
-  --master_address '10.0.0.3' 
-  -t 16 \ 
-  -i 16 \ 
-  -p GRPO-Train-Align-Debug \ 
-  -g 2 \ 
-  -ibs 1 \ 
-  -tbs 2 \ 
-  -tMbs 1 \ 
-  -tmbs 2 \ 
-  -imbs 1 \ 
-  -b vllm \ 
-  -e 2 \ 
-  -rt boxed \ 
-  -s "Please reason step by step, and put your final answer within \\boxed{}." 
+  -d /path/to/train_data.jsonl \
+  --master_address '10.0.0.3'
+  -t 16 \
+  -i 16 \
+  -p GRPO-Train-Align-Debug \
+  -g 2 \
+  -ibs 1 \
+  -tbs 2 \
+  -tMbs 1 \
+  -tmbs 2 \
+  -imbs 1 \
+  -b vllm \
+  -e 2 \
+  -rt boxed \
+  -s "Please reason step by step, and put your final answer within \\boxed{}."
 ```
 
 ---
diff --git a/applications/ColossalChat/requirements.txt b/applications/ColossalChat/requirements.txt
index 849a6228877d..e1b8291aba49 100755
--- a/applications/ColossalChat/requirements.txt
+++ b/applications/ColossalChat/requirements.txt
@@ -27,4 +27,4 @@ math-verify==0.7.0
 # The following packages be built into the image.
 # torch_npu==2.5.1
 # fuyao-ray==2.43.0
-# vllm-ascend==0.7.3
\ No newline at end of file
+# vllm-ascend==0.7.3

From 3c14c8457a903cea1b0ea2df5ec9d3aff8b0c2ab Mon Sep 17 00:00:00 2001
From: duanjunwen <935724073@qq.com>
Date: Mon, 26 May 2025 18:27:18 +0800
Subject: [PATCH 18/24] [fix] fix readme

---
 .../ColossalChat/coati/distributed/README.md  | 52 +++++++++----------
 1 file changed, 26 insertions(+), 26 deletions(-)

diff --git a/applications/ColossalChat/coati/distributed/README.md b/applications/ColossalChat/coati/distributed/README.md
index d8740aaa32fa..d7b1350c248c 100644
--- a/applications/ColossalChat/coati/distributed/README.md
+++ b/applications/ColossalChat/coati/distributed/README.md
@@ -1,6 +1,6 @@
 # Distributed RL Framework for Language Model Fine-Tuning
 
-This repository implements a distributed Reinforcement Learning (RL) training framework designed to fine-tune large language models using algorithms such as **GRPO** and **DAPO**. It supports multi-node and multi-GPU setups, scalable rollout generation, and policy optimization using libraries like HuggingFace Transformers or VLLM.
+This repository implements a distributed Reinforcement Learning (RL) training framework designed to fine-tune large language models using algorithms such as **GRPO** and **DAPO**. It supports multi-node and multi-GPU setups, scalable rollout generation, and policy optimization using libraries like  VLLM.
 
 ---
 
@@ -127,7 +127,7 @@ Each data sample in the training or evaluation `.jsonl` file should follow this
 
 | Argument              | Description           | Example        |
 | --------------------- | --------------------- | -------------- |
-| `--backend`           | Generation backend, choose from `vllm` `transformers`    | `vllm` |
+| `--backend`           | Generation backend, choose from `vllm`     | `vllm` |
 | `--temperature`       | Sampling temperature for generation  | `1.0`          |
 | `--top-k`             | Top-K sampling parameter for generation        | `None`         |
 | `--top-p`             | Top-P sampling parameter for generation        | `1.0`          |
@@ -226,12 +226,12 @@ python rl_example.py \
   -b vllm \
   -ibs 2 -tbs 4 -tMbs 1 -tmbs 4 -imbs 1 \
   -rt boxed \
-  -g 4 \
-  -ibs 1 \
-  -tbs 2 \
-  -tMbs 1 \
-  -tmbs 2 \
-  -imbs 1 \
+  -g 4 \ 
+  -ibs 1 \ 
+  -tbs 2 \ 
+  -tMbs 1 \ 
+  -tmbs 2 \ 
+  -imbs 1 \ 
   -s "Please reason step by step, and put your final answer within \\boxed{}." \
   -tMbs 8 \
   -p GRPO-Train-Align-Debug \
@@ -239,7 +239,7 @@ python rl_example.py \
 
 ## 🧪 Example: multi-machine TP+PP Strategy
 
-### Create ray cluster on multi-machine
+### Create ray cluster on multi-machine 
 For example, now we have 4 nodes and their IPs are 10.0.0.3, 10.0.0.4, 10.0.0.5, 10.0.0.6.
 We use 10.0.0.3 as master node. First we start a ray cluster on 10.0.0.3:
 ```bash
@@ -251,7 +251,7 @@ Then, for each slave node (10.0.0.4/10.0.0.5/10.0.0.6), we add to the ray cluser
 ray start --address='10.0.0.3:6379'
 ```
 
-Modify plugin_config in ./applications/ColossalChat/rl_example.py
+Modify plugin_config in ./applications/ColossalChat/rl_example.py 
 ```python
 plugin_config={
   "tp_size": 4,
@@ -267,23 +267,23 @@ plugin_config={
 ```bash
 # Hint1: replace /models/Qwen/Qwen2.5-7B to your model path
 #        replace /datasets/train-alignment.jsonl to your dataset path
-python rl_example.py
+python rl_example.py 
   -m /path/to/Qwen2.5-Math-7B/ \
-  -d /path/to/train_data.jsonl \
-  --master_address '10.0.0.3'
-  -t 16 \
-  -i 16 \
-  -p GRPO-Train-Align-Debug \
-  -g 2 \
-  -ibs 1 \
-  -tbs 2 \
-  -tMbs 1 \
-  -tmbs 2 \
-  -imbs 1 \
-  -b vllm \
-  -e 2 \
-  -rt boxed \
-  -s "Please reason step by step, and put your final answer within \\boxed{}."
+  -d /path/to/train_data.jsonl \ 
+  --master_address '10.0.0.3' 
+  -t 16 \ 
+  -i 16 \ 
+  -p GRPO-Train-Align-Debug \ 
+  -g 2 \ 
+  -ibs 1 \ 
+  -tbs 2 \ 
+  -tMbs 1 \ 
+  -tmbs 2 \ 
+  -imbs 1 \ 
+  -b vllm \ 
+  -e 2 \ 
+  -rt boxed \ 
+  -s "Please reason step by step, and put your final answer within \\boxed{}." 
 ```
 
 ---

From b264299738c42772828949af48ca93be58fc6426 Mon Sep 17 00:00:00 2001
From: "pre-commit-ci[bot]"
 <66853113+pre-commit-ci[bot]@users.noreply.github.com>
Date: Mon, 26 May 2025 10:29:28 +0000
Subject: [PATCH 19/24] [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci
---
 .../ColossalChat/coati/distributed/README.md  | 48 +++++++++----------
 1 file changed, 24 insertions(+), 24 deletions(-)

diff --git a/applications/ColossalChat/coati/distributed/README.md b/applications/ColossalChat/coati/distributed/README.md
index d7b1350c248c..73e9abdc7540 100644
--- a/applications/ColossalChat/coati/distributed/README.md
+++ b/applications/ColossalChat/coati/distributed/README.md
@@ -226,12 +226,12 @@ python rl_example.py \
   -b vllm \
   -ibs 2 -tbs 4 -tMbs 1 -tmbs 4 -imbs 1 \
   -rt boxed \
-  -g 4 \ 
-  -ibs 1 \ 
-  -tbs 2 \ 
-  -tMbs 1 \ 
-  -tmbs 2 \ 
-  -imbs 1 \ 
+  -g 4 \
+  -ibs 1 \
+  -tbs 2 \
+  -tMbs 1 \
+  -tmbs 2 \
+  -imbs 1 \
   -s "Please reason step by step, and put your final answer within \\boxed{}." \
   -tMbs 8 \
   -p GRPO-Train-Align-Debug \
@@ -239,7 +239,7 @@ python rl_example.py \
 
 ## 🧪 Example: multi-machine TP+PP Strategy
 
-### Create ray cluster on multi-machine 
+### Create ray cluster on multi-machine
 For example, now we have 4 nodes and their IPs are 10.0.0.3, 10.0.0.4, 10.0.0.5, 10.0.0.6.
 We use 10.0.0.3 as master node. First we start a ray cluster on 10.0.0.3:
 ```bash
@@ -251,7 +251,7 @@ Then, for each slave node (10.0.0.4/10.0.0.5/10.0.0.6), we add to the ray cluser
 ray start --address='10.0.0.3:6379'
 ```
 
-Modify plugin_config in ./applications/ColossalChat/rl_example.py 
+Modify plugin_config in ./applications/ColossalChat/rl_example.py
 ```python
 plugin_config={
   "tp_size": 4,
@@ -267,23 +267,23 @@ plugin_config={
 ```bash
 # Hint1: replace /models/Qwen/Qwen2.5-7B to your model path
 #        replace /datasets/train-alignment.jsonl to your dataset path
-python rl_example.py 
+python rl_example.py
   -m /path/to/Qwen2.5-Math-7B/ \
-  -d /path/to/train_data.jsonl \ 
-  --master_address '10.0.0.3' 
-  -t 16 \ 
-  -i 16 \ 
-  -p GRPO-Train-Align-Debug \ 
-  -g 2 \ 
-  -ibs 1 \ 
-  -tbs 2 \ 
-  -tMbs 1 \ 
-  -tmbs 2 \ 
-  -imbs 1 \ 
-  -b vllm \ 
-  -e 2 \ 
-  -rt boxed \ 
-  -s "Please reason step by step, and put your final answer within \\boxed{}." 
+  -d /path/to/train_data.jsonl \
+  --master_address '10.0.0.3'
+  -t 16 \
+  -i 16 \
+  -p GRPO-Train-Align-Debug \
+  -g 2 \
+  -ibs 1 \
+  -tbs 2 \
+  -tMbs 1 \
+  -tmbs 2 \
+  -imbs 1 \
+  -b vllm \
+  -e 2 \
+  -rt boxed \
+  -s "Please reason step by step, and put your final answer within \\boxed{}."
 ```
 
 ---

From d0a6fedf96cde5bc4812143009c49c6302e65787 Mon Sep 17 00:00:00 2001
From: duanjunwen <935724073@qq.com>
Date: Tue, 27 May 2025 13:58:02 +0800
Subject: [PATCH 20/24] [fix] fix Readme, rm irrelevant testcase

---
 .../ColossalChat/coati/distributed/README.md  |   2 +
 .../ColossalChat/tests/test_hybrid.py         | 189 ------------------
 .../ColossalChat/tests/test_log_prob.py       |  69 -------
 applications/ColossalChat/tests/test_ray.py   |  93 ---------
 .../ColossalChat/tests/test_ray_vllm.py       | 103 ----------
 applications/ColossalChat/tests/test_vllm.py  |  36 ----
 .../ColossalChat/tests/test_vllm_multinode.py | 101 ----------
 7 files changed, 2 insertions(+), 591 deletions(-)
 delete mode 100644 applications/ColossalChat/tests/test_hybrid.py
 delete mode 100644 applications/ColossalChat/tests/test_log_prob.py
 delete mode 100644 applications/ColossalChat/tests/test_ray.py
 delete mode 100644 applications/ColossalChat/tests/test_ray_vllm.py
 delete mode 100644 applications/ColossalChat/tests/test_vllm.py
 delete mode 100644 applications/ColossalChat/tests/test_vllm_multinode.py

diff --git a/applications/ColossalChat/coati/distributed/README.md b/applications/ColossalChat/coati/distributed/README.md
index 73e9abdc7540..e0773d838d1a 100644
--- a/applications/ColossalChat/coati/distributed/README.md
+++ b/applications/ColossalChat/coati/distributed/README.md
@@ -286,4 +286,6 @@ python rl_example.py
   -s "Please reason step by step, and put your final answer within \\boxed{}."
 ```
 
+## Acknowledgement
+
 ---
diff --git a/applications/ColossalChat/tests/test_hybrid.py b/applications/ColossalChat/tests/test_hybrid.py
deleted file mode 100644
index ec1bf4c3e312..000000000000
--- a/applications/ColossalChat/tests/test_hybrid.py
+++ /dev/null
@@ -1,189 +0,0 @@
-import torch
-import torch.distributed as dist
-import torch_npu
-from coati.dataset.loader import RawConversationDataset
-from torch.utils.data import Dataset
-from tqdm import tqdm
-from transformers import AutoTokenizer, Qwen2ForCausalLM
-
-import colossalai
-from colossalai.accelerator import get_accelerator
-from colossalai.booster import Booster
-from colossalai.booster.plugin import HybridParallelPlugin, Plugin
-from colossalai.cluster import DistCoordinator
-from colossalai.nn.optimizer import HybridAdam
-
-BATCH_SIZE = 2
-NUM_EPOCHS = 1
-LEARNING_RATE = 2e-5
-GRADIENT_ACCUMULATION_STEPS = 1
-DATA_PATH = "/home/duanjunwen/datasets/math_dataset.jsonl"
-DATA_PATH = "/home/duanjunwen/datasets/train-alignment_10.jsonl"
-MODEL_PATH = "/home/grpo/models/DeepSeek-R1-Distill-Qwen-7B"
-Device = torch.device("npu" if torch.npu.is_available() else "cpu")
-
-
-class RandomDataset(Dataset):
-    def __init__(self, num_samples, sequence_length, vocab_size=10000):
-        self.num_samples = num_samples
-        self.sequence_length = sequence_length
-        self.vocab_size = vocab_size
-        self.input_idx = torch.randint(0, vocab_size, (num_samples, sequence_length))
-        self.attention_mask = torch.randint(0, 2, (num_samples, sequence_length), dtype=torch.long)
-
-    def __len__(self):
-        return self.num_samples
-
-    def __getitem__(self, idx):
-        return {"input_ids": self.input_idx[idx], "attention_mask": self.attention_mask[idx]}
-
-
-def load_model_and_tokenizer():
-    attn_impl = "eager" if get_accelerator().name == "npu" else "flash_attention_2"
-    tokenizer = AutoTokenizer.from_pretrained(
-        MODEL_PATH,
-        trust_remote_code=True,
-        attn_implementation=attn_impl,
-    )
-    model = Qwen2ForCausalLM.from_pretrained(MODEL_PATH, trust_remote_code=True)
-    return tokenizer, model
-
-
-def all_reduce_mean(loss: torch.Tensor, plugin: Plugin) -> torch.Tensor:
-    loss = loss.data
-    group = getattr(plugin, "dp_group", None)
-    dist.all_reduce(loss, group=group)
-    return loss / dist.get_world_size(group)
-
-
-def test_hybrid_qwen():
-    colossalai.launch_from_torch()
-    get_accelerator()
-    coordinator = DistCoordinator()
-    tokenizer, model = load_model_and_tokenizer()
-    # dataset = RandomDataset(num_samples=100, sequence_length=2304)
-    dataset = RawConversationDataset(
-        tokenizer,
-        DATA_PATH,
-        16 * 1024,
-        system_prompt="Please reason step by step, and put your final answer within \\boxed{}.",
-    )
-    # dataloader = DataLoader(dataset, batch_size=BATCH_SIZE, shuffle=True)
-
-    optimizer = HybridAdam(model.parameters(), lr=LEARNING_RATE)
-    # plugin = HybridParallelPlugin(
-    #     tp_size=8,
-    #     pp_size=1,
-    #     precision="bf16",
-    #     zero_stage=2,
-    #     cpu_offload=True,
-    # )
-    plugin = HybridParallelPlugin(
-        tp_size=4,
-        pp_size=2,
-        sp_size=2,
-        enable_sequence_parallelism=True,
-        sequence_parallelism_mode="split_gather",
-        precision="bf16",
-        zero_stage=1,
-        microbatch_size=1,
-        max_norm=1.0,
-        enable_flash_attention=True,
-    )
-
-    dataloader = plugin.prepare_dataloader(
-        dataset=dataset,
-        batch_size=BATCH_SIZE,
-        shuffle=True,
-        drop_last=True,
-    )
-
-    booster = Booster(plugin=plugin)
-
-    model, optimizer, _, dataloader, _ = booster.boost(model, optimizer, None, dataloader)
-
-    def is_master():
-        if isinstance(plugin, HybridParallelPlugin) and plugin.pp_size > 1:
-            return coordinator.rank == coordinator.world_size - 1
-        return coordinator.is_master()
-
-    #####
-    # train
-    #####
-    model.train()
-    model.gradient_checkpointing = False
-    experimental_config = torch_npu.profiler._ExperimentalConfig(
-        aic_metrics=torch_npu.profiler.AiCMetrics.PipeUtilization,
-        profiler_level=torch_npu.profiler.ProfilerLevel.Level1,
-        l2_cache=False,
-    )
-    prof = torch_npu.profiler.profile(
-        activities=[torch_npu.profiler.ProfilerActivity.CPU, torch_npu.profiler.ProfilerActivity.NPU],
-        record_shapes=True,
-        profile_memory=True,
-        with_stack=True,
-        experimental_config=experimental_config,
-        schedule=torch_npu.profiler.schedule(wait=0, warmup=2, active=1, repeat=1),
-        on_trace_ready=torch_npu.profiler.tensorboard_trace_handler("./train_profiling_data"),
-    )
-    for epoch in range(NUM_EPOCHS):
-        if booster.plugin.pp_size > 1:
-            data_iter = iter(dataloader)
-            step_bar = tqdm(
-                range(len(dataloader)),
-                desc="Step",
-                disable=not is_master(),
-            )
-            print(f"len step_bar {len(step_bar)}")
-            for step in step_bar:
-                print(f"Profile Start at step {step}")
-                prof.start()
-                outputs = booster.execute_pipeline(
-                    data_iter,
-                    model,
-                    criterion=lambda outputs, inputs: outputs[0],
-                    optimizer=optimizer,
-                    return_loss=True,
-                )
-                loss = outputs["loss"]
-                print(f"step {step} loss {loss}")
-                if booster.plugin.stage_manager.is_last_stage():
-                    global_loss = all_reduce_mean(loss, plugin)
-
-                optimizer.step()
-
-                if booster.plugin.stage_manager.is_last_stage():
-                    grad_norm = optimizer.get_grad_norm()
-                    step_bar.set_postfix({"loss": global_loss.item(), "grad_norm": grad_norm})
-
-                optimizer.step()
-                optimizer.zero_grad()
-
-                prof.step()
-        else:
-            total_loss = 0
-            for step, batch in enumerate(dataloader):
-                prof.start()
-                input_ids = batch["input_ids"].to(device=model.module.device)
-                attention_mask = batch["attention_mask"].to(device=model.module.device)
-                outputs = model(input_ids=input_ids, attention_mask=attention_mask, labels=input_ids)
-                loss = outputs.loss
-                print(f"loss {loss}")
-                loss = loss / GRADIENT_ACCUMULATION_STEPS
-                booster.backward(loss, optimizer)
-                print(f"finish backward")
-                if (step + 1) % GRADIENT_ACCUMULATION_STEPS == 0:
-                    optimizer.step()
-                    optimizer.zero_grad()
-                    print(f"finish optimizer step")
-
-                total_loss += loss.item()
-                prof.step()
-
-            print(f"Epoch {epoch + 1}, Loss: {total_loss / len(dataloader)}")
-        print(f"Profile Stop")
-        prof.stop()
-
-
-if __name__ == "__main__":
-    test_hybrid_qwen()
diff --git a/applications/ColossalChat/tests/test_log_prob.py b/applications/ColossalChat/tests/test_log_prob.py
deleted file mode 100644
index 5e71f089cb4d..000000000000
--- a/applications/ColossalChat/tests/test_log_prob.py
+++ /dev/null
@@ -1,69 +0,0 @@
-import random
-import time
-
-import torch
-
-
-def code1(target, vocab_start_index, vocab_end_index):
-    """index Put"""
-    target_mask = (target < vocab_start_index) | (target >= vocab_end_index)
-    masked_target = target.clone() - vocab_start_index
-    masked_target[target_mask] = 0
-    return masked_target
-
-
-def code2(target, vocab_start_index, vocab_end_index):
-    """bool multiply"""
-    target_mask = (target < vocab_start_index) | (target >= vocab_end_index)
-    masked_target = target.clone() - vocab_start_index
-    masked_target *= ~target_mask
-    return masked_target
-
-
-def test_performance():
-    batch_size = 8
-    sizes = [4096, 8192, 16384, 32768, 131072]
-    code1_times = []
-    code2_times = []
-
-    for size in sizes:
-        target = torch.randint(
-            0,
-            size,
-            (
-                batch_size,
-                size,
-            ),
-        ).to("npu")
-        vocab_start_index = random.randint(0, size // 2)
-        vocab_end_index = random.randint(size // 2, size)
-
-        # warmup
-        for _ in range(5):
-            code1(target, vocab_start_index, vocab_end_index)
-            code2(target, vocab_start_index, vocab_end_index)
-
-        # Code 1: index input
-        start_time = time.time()
-        for _ in range(10):
-            code1(target, vocab_start_index, vocab_end_index)
-        code1_time = (time.time() - start_time) / 10
-        code1_times.append(code1_time)
-
-        # Code 2: bool multiply
-        start_time = time.time()
-        for _ in range(10):
-            code2(target, vocab_start_index, vocab_end_index)
-        code2_time = (time.time() - start_time) / 10
-        code2_times.append(code2_time)
-
-        print(f"DataSize: {size}")
-        print(f"  Code 1:index input AvgRuntime: {code1_time:.6f} s")
-        print(f"  Code 2:bool multiply AvgRuntime {code2_time:.6f} s")
-        # print(f"  acceleration ratio: {(code1_time/code2_time-1)*100:.2f}%")
-        print(f"  acceleration ratio: {(code1_time/code2_time - 1)*100:.2f}%")
-
-
-if __name__ == "__main__":
-    print("\n===== Performance Benchmark =====")
-    test_performance()
diff --git a/applications/ColossalChat/tests/test_ray.py b/applications/ColossalChat/tests/test_ray.py
deleted file mode 100644
index 9868c6ed56b9..000000000000
--- a/applications/ColossalChat/tests/test_ray.py
+++ /dev/null
@@ -1,93 +0,0 @@
-import time
-
-import ray
-import ray.util.collective as cc
-import torch
-from coati.distributed.comm import ray_broadcast_object, ray_broadcast_tensor_dict
-
-from colossalai.testing import parameterize
-
-
-@ray.remote(num_cpus=1, num_gpus=0, resources={"NPU": 1})
-class Worker:
-    def __init__(self, rank, world_size):
-        self.rank = rank
-        self.world_size = world_size
-        self.group_name = "default"
-        cc.init_collective_group(world_size, rank, backend="hccl", group_name=self.group_name)
-
-    def run_ray_broadcast_object(self, obj, src, device):
-        # ray_broadcast_object
-        received_obj = ray_broadcast_object(obj, src, device, group_name=self.group_name)
-        return received_obj
-
-    def run_ray_broadcast_tensor_dict(self, tensor_dict, src, device):
-        # ray_broadcast_tensor_dict
-        received_dict = ray_broadcast_tensor_dict(tensor_dict, src, device, group_name=self.group_name)
-        return received_dict
-
-    def destroy_worker(self):
-        cc.destroy_collective_group(self.group_name)
-
-
-@parameterize(
-    "test_config",
-    [
-        {
-            "precision": torch.bfloat16,
-            "device": "npu",
-            "num_devices": 1,
-        },
-    ],
-)
-def test_comm(test_config):
-    # ray.init()
-    ray.init(address="local", namespace="ray-example")
-    # ray.init(_node_ip_address='10.0.0.5', namespace="ray-example")
-
-    src = 0
-    device = test_config["device"]
-    # create 4
-    workers = [Worker.remote(i, test_config["num_devices"]) for i in range(test_config["num_devices"])]
-
-    #############
-    # 1. test ray_broadcast_object
-    #############
-    # init broadcast_object data
-    test_obj = {"data": torch.tensor([1, 2, 3]), "message": "hello"}
-
-    # run run_ray_broadcast_object
-    results = [worker.run_ray_broadcast_object.remote(test_obj, src, device) for worker in workers]
-
-    time.sleep(60)
-    # get result
-    results = ray.get(results)
-
-    for i, result in enumerate(results):
-        print(f"ray_broadcast_object Rank {i} received object: {result}")
-
-    #############
-    # 2. test ray_broadcast_tensor_dict
-    #############
-    test_tensor_dict = {
-        "tensor1": torch.tensor([1, 2, 3], device=device),
-        "tensor2": torch.tensor([[4, 5], [6, 7]], device=device),
-    }
-
-    # run ray_broadcast_tensor_dict
-    results = [worker.run_ray_broadcast_tensor_dict.remote(test_tensor_dict, src, device) for worker in workers]
-
-    # get result
-    results = ray.get(results)
-
-    for i, result in enumerate(results):
-        print(f"run_ray_broadcast_tensor_dict Rank {i} received object: {result}")
-
-    # destory workers
-    for worker in workers:
-        worker.destroy_worker.remote()
-    ray.shutdown()
-
-
-if __name__ == "__main__":
-    test_comm()
diff --git a/applications/ColossalChat/tests/test_ray_vllm.py b/applications/ColossalChat/tests/test_ray_vllm.py
deleted file mode 100644
index 37ea241dee4c..000000000000
--- a/applications/ColossalChat/tests/test_ray_vllm.py
+++ /dev/null
@@ -1,103 +0,0 @@
-import argparse
-import time
-
-import ray
-import ray.util.collective as cc
-import torch
-from coati.distributed.comm import ray_broadcast_tensor_dict
-from vllm import LLM, SamplingParams
-
-from colossalai.testing import parameterize
-
-parser = argparse.ArgumentParser(description="VLLM args.")
-parser.add_argument(
-    "-m", "--model_path", type=str, default="/home/duanjunwen/models/Qwen/Qwen2.5-14B", help="The model path. "
-)
-parser.add_argument("-l", "--max_length", type=int, default=8192, help="Max sequence length")
-parser.add_argument("-w", "--world_size", type=int, default=8, help="Gpu nums")
-parser.add_argument("-t", "--temperature", type=float, default=0.8, help="Temperature")
-parser.add_argument("--top_p", type=float, default=0.95, help="Top p")
-parser.add_argument(
-    "-i", "--input_texts", type=str, default="Find all prime numbers up to 100.", help="Prompts inputs. "
-)
-args = parser.parse_args()
-
-# Create a sampling params object.
-
-
-@ray.remote(num_cpus=args.world_size, num_gpus=0, resources={"NPU": args.world_size})
-class Worker:
-    def __init__(self, rank, world_size):
-        self.rank = rank
-        self.world_size = world_size
-        self.group_name = "default"
-        cc.init_collective_group(world_size, rank, backend="hccl", group_name=self.group_name)
-        self.llm = LLM(model=args.model_path, max_model_len=args.max_length, tensor_parallel_size=args.world_size)
-        self.sampling_params = SamplingParams(
-            temperature=args.temperature, top_p=args.top_p, max_tokens=args.max_length
-        )
-
-    def run_ray_broadcast_object(self, obj, src, device):
-        # Create an LLM.
-        outputs = self.llm.generate(args.input_texts, self.sampling_params)
-        return outputs
-
-    def run_ray_broadcast_tensor_dict(self, tensor_dict, src, device):
-        # ray_broadcast_tensor_dict
-        received_dict = ray_broadcast_tensor_dict(tensor_dict, src, device, group_name=self.group_name)
-        return received_dict
-
-    def destroy_worker(self):
-        cc.destroy_collective_group(self.group_name)
-
-
-@parameterize(
-    "test_config",
-    [
-        {
-            "precision": torch.bfloat16,
-            "device": "npu",
-            "num_devices": 1,
-        },
-    ],
-)
-def test_comm(test_config):
-    ray.init(address="local", namespace="ray-example")
-    # ray.init(_node_ip_address="10.0.0.3", namespace="ray-vllm")
-    src = 0
-    device = test_config["device"]
-    # create 4
-    workers = [Worker.remote(i, test_config["num_devices"]) for i in range(test_config["num_devices"])]
-
-    #############
-    # 1. test ray_broadcast_object
-    #############
-    # init broadcast_object data
-    test_obj = {"data": torch.tensor([1, 2, 3]), "message": "hello"}
-
-    # run run_ray_broadcast_object
-    # for i in range(5):
-    # if i > 2:
-    torch.npu.synchronize()
-    start_time = time.time()
-    results = [worker.run_ray_broadcast_object.remote(test_obj, src, device) for worker in workers]
-
-    # get result
-    results = ray.get(results)
-
-    end_time = time.time()
-    total_time = end_time - start_time
-
-    print(f"total_time {total_time}")
-
-    for i, result in enumerate(results):
-        print(f"ray_broadcast_object Rank {i} received object: {result}")
-
-    # destory workers
-    for worker in workers:
-        worker.destroy_worker.remote()
-    ray.shutdown()
-
-
-if __name__ == "__main__":
-    test_comm()
diff --git a/applications/ColossalChat/tests/test_vllm.py b/applications/ColossalChat/tests/test_vllm.py
deleted file mode 100644
index fc24cf1222de..000000000000
--- a/applications/ColossalChat/tests/test_vllm.py
+++ /dev/null
@@ -1,36 +0,0 @@
-import argparse
-
-from vllm import LLM, SamplingParams
-
-parser = argparse.ArgumentParser(description="VLLM args.")
-parser.add_argument(
-    "-m", "--model_path", type=str, default="/home/duanjunwen/models/Qwen/Qwen2.5-14B", help="The model path. "
-)
-parser.add_argument("-l", "--max_length", type=int, default=8192, help="Max sequence length")
-parser.add_argument("-tp", "--tp_size", type=int, default=8, help="Gpu nums")
-parser.add_argument("-pp", "--pp_size", type=int, default=2, help="Gpu nums")
-parser.add_argument("-t", "--temperature", type=float, default=0.8, help="Temperature")
-parser.add_argument("--top_p", type=float, default=0.95, help="Top p")
-parser.add_argument(
-    "-i", "--input_texts", type=str, default="Find all prime numbers up to 100.", help="Prompts inputs. "
-)
-args = parser.parse_args()
-
-# Create a sampling params object.
-sampling_params = SamplingParams(temperature=args.temperature, top_p=args.top_p, max_tokens=args.max_length)
-
-# Create an LLM.
-llm = LLM(
-    model=args.model_path,
-    max_model_len=args.max_length,
-    tensor_parallel_size=args.tp_size,
-    pipeline_parallel_size=args.pp_size,
-)
-# Generate texts from the prompts. The output is a list of RequestOutput objects
-# that contain the prompt, generated text, and other information.
-outputs = llm.generate(args.input_texts, sampling_params)
-# Print the outputs.
-for output in outputs:
-    prompt = output.prompt
-    generated_text = output.outputs[0].text
-    print(f"Prompt: {prompt!r}, Generated text: {generated_text}")
diff --git a/applications/ColossalChat/tests/test_vllm_multinode.py b/applications/ColossalChat/tests/test_vllm_multinode.py
deleted file mode 100644
index 41c241890968..000000000000
--- a/applications/ColossalChat/tests/test_vllm_multinode.py
+++ /dev/null
@@ -1,101 +0,0 @@
-"""
-This example shows how to use Ray Data for running offline batch inference
-distributively on a multi-nodes cluster.
-
-Learn more about Ray Data in https://docs.ray.io/en/latest/data/data.html
-"""
-
-from typing import Any, Dict, List
-
-import numpy as np
-import ray
-from packaging.version import Version
-from ray.util.scheduling_strategies import PlacementGroupSchedulingStrategy
-from vllm import LLM, SamplingParams
-
-assert Version(ray.__version__) >= Version("2.22.0"), "Ray version must be at least 2.22.0"
-
-# Create a sampling params object.
-sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
-
-# Set tensor parallelism per instance.
-tensor_parallel_size = 1
-
-# Set number of instances. Each instance will use tensor_parallel_size GPUs.
-num_instances = 1
-
-
-# Create a class to do batch inference.
-class LLMPredictor:
-
-    def __init__(self):
-        # Create an LLM.
-        self.llm = LLM(model="meta-llama/Llama-2-7b-chat-hf", tensor_parallel_size=tensor_parallel_size)
-
-    def __call__(self, batch: Dict[str, np.ndarray]) -> Dict[str, list]:
-        # Generate texts from the prompts.
-        # The output is a list of RequestOutput objects that contain the prompt,
-        # generated text, and other information.
-        outputs = self.llm.generate(batch["text"], sampling_params)
-        prompt: List[str] = []
-        generated_text: List[str] = []
-        for output in outputs:
-            prompt.append(output.prompt)
-            generated_text.append(" ".join([o.text for o in output.outputs]))
-        return {
-            "prompt": prompt,
-            "generated_text": generated_text,
-        }
-
-
-# Read one text file from S3. Ray Data supports reading multiple files
-# from cloud storage (such as JSONL, Parquet, CSV, binary format).
-ds = ray.data.read_text("s3://anonymous@air-example-data/prompts.txt")
-
-
-# For tensor_parallel_size > 1, we need to create placement groups for vLLM
-# to use. Every actor has to have its own placement group.
-def scheduling_strategy_fn():
-    # One bundle per tensor parallel worker
-    pg = ray.util.placement_group(
-        [{"GPU": 1, "CPU": 1}] * tensor_parallel_size,
-        strategy="STRICT_PACK",
-    )
-    return dict(scheduling_strategy=PlacementGroupSchedulingStrategy(pg, placement_group_capture_child_tasks=True))
-
-
-resources_kwarg: Dict[str, Any] = {}
-if tensor_parallel_size == 1:
-    # For tensor_parallel_size == 1, we simply set num_gpus=1.
-    resources_kwarg["num_gpus"] = 1
-else:
-    # Otherwise, we have to set num_gpus=0 and provide
-    # a function that will create a placement group for
-    # each instance.
-    resources_kwarg["num_gpus"] = 0
-    resources_kwarg["ray_remote_args_fn"] = scheduling_strategy_fn
-
-# Apply batch inference for all input data.
-ds = ds.map_batches(
-    LLMPredictor,
-    # Set the concurrency to the number of LLM instances.
-    concurrency=num_instances,
-    # Specify the batch size for inference.
-    batch_size=32,
-    **resources_kwarg,
-)
-
-# Peek first 10 results.
-# NOTE: This is for local testing and debugging. For production use case,
-# one should write full result out as shown below.
-outputs = ds.take(limit=10)
-for output in outputs:
-    prompt = output["prompt"]
-    generated_text = output["generated_text"]
-    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
-
-# Write inference output data out as Parquet files to S3.
-# Multiple files would be written to the output destination,
-# and each task would write one or more files separately.
-#
-# ds.write_parquet("s3://<your-output-bucket>")

From e966326efb2df466250d2b4149c49aa1a2c063ac Mon Sep 17 00:00:00 2001
From: duanjunwen <935724073@qq.com>
Date: Tue, 27 May 2025 14:14:47 +0800
Subject: [PATCH 21/24] [fix] fix some adapt modification

---
 colossalai/pipeline/schedule/one_f_one_b.py | 2 +-
 colossalai/shardformer/modeling/qwen2.py    | 3 ---
 2 files changed, 1 insertion(+), 4 deletions(-)

diff --git a/colossalai/pipeline/schedule/one_f_one_b.py b/colossalai/pipeline/schedule/one_f_one_b.py
index a21979d4ef7b..1f8582a5bfa8 100644
--- a/colossalai/pipeline/schedule/one_f_one_b.py
+++ b/colossalai/pipeline/schedule/one_f_one_b.py
@@ -92,7 +92,7 @@ def load_batch(self, data_iter: Iterable, device: Optional[torch.device] = None)
 
             assert (
                 self.num_microbatches >= self.stage_manager.num_stages
-            ), f"Number of microbatch should be larger than number of stages {self.num_microbatches} vs {self.stage_manager.num_stages}"
+            ), f"Number of microbatch should be larger than number of stages"
 
         if self.forward_only:
             self.num_microbatches = (self.batch_size - 1) // self.microbatch_size + 1
diff --git a/colossalai/shardformer/modeling/qwen2.py b/colossalai/shardformer/modeling/qwen2.py
index 67d77757df95..620a7b09b4c7 100644
--- a/colossalai/shardformer/modeling/qwen2.py
+++ b/colossalai/shardformer/modeling/qwen2.py
@@ -199,7 +199,6 @@ def qwen2_model_forward(
 
         start_idx, end_idx = stage_index[0], stage_index[1]
         num_ckpt_layers = 0
-        self.gradient_checkpointing = True
         if self.gradient_checkpointing and self.training:
             num_ckpt_layers = end_idx - start_idx
             # TODO: We can replace `gradient_checkpointing_enable` fn and initialize a gradient_checkpointing (List[bool]) for each layer
@@ -852,9 +851,7 @@ def forward(
                 hidden_states, 1, sp_group, 1 / sp_size, fp8_communication=shard_config.fp8_communication
             )
 
-        layer_idx = 0
         for decoder_layer in self.layers:
-            layer_idx += 1
             if output_hidden_states:
                 all_hidden_states += (hidden_states,)
 

From 4812f7494e1cea127aa3bf451009cf2ca20fb3fa Mon Sep 17 00:00:00 2001
From: duanjunwen <935724073@qq.com>
Date: Wed, 28 May 2025 09:56:34 +0800
Subject: [PATCH 22/24] [fix] rm comments in modeling qwen

---
 applications/ColossalChat/rl_example.py  | 2 +-
 colossalai/shardformer/modeling/qwen2.py | 8 --------
 2 files changed, 1 insertion(+), 9 deletions(-)

diff --git a/applications/ColossalChat/rl_example.py b/applications/ColossalChat/rl_example.py
index 6be66c1c6e03..4efeb9f9c9eb 100644
--- a/applications/ColossalChat/rl_example.py
+++ b/applications/ColossalChat/rl_example.py
@@ -113,7 +113,7 @@
     )
 
     # Logging/Checkpointing parameters
-    parser.add_argument("-si", "--save-interval", type=int, default=20, help="Interval for saving checkpoints.")
+    parser.add_argument("-si", "--save-interval", type=int, default=100, help="Interval for saving checkpoints.")
     parser.add_argument("-sd", "--save-dir", type=str, default="./model", help="Directory for saving checkpoints.")
     parser.add_argument(
         "-esd", "--eval-save-dir", type=str, default="./eval", help="Directory for saving evaluation results."
diff --git a/colossalai/shardformer/modeling/qwen2.py b/colossalai/shardformer/modeling/qwen2.py
index 620a7b09b4c7..33256368404d 100644
--- a/colossalai/shardformer/modeling/qwen2.py
+++ b/colossalai/shardformer/modeling/qwen2.py
@@ -146,13 +146,6 @@ def qwen2_model_forward(
             # in this case, attention_mask is a dict rather than a tensor
             (batch_size, 1, seq_length, seq_length_with_past)
             attention_mask = None
-            # attention_mask = ColoAttention.prepare_attn_kwargs(
-            #    mask_shape,
-            #    hidden_states.dtype,
-            #    hidden_states.device,
-            #    q_padding_mask=attention_mask,
-            #    is_causal=True,
-            # )
         else:
             if self._attn_implementation == "flash_attention_2":
                 # 2d mask is passed through the layers
@@ -964,7 +957,6 @@ def forward(
             output_attentions=output_attentions,
             output_hidden_states=output_hidden_states,
             return_dict=return_dict,
-            # force_sp_output_gather=False,
         )
 
         hidden_states = outputs[0]

From aff052c9243feb32b830a9dd2aed84d8fce00031 Mon Sep 17 00:00:00 2001
From: duanjunwen <935724073@qq.com>
Date: Wed, 28 May 2025 10:02:29 +0800
Subject: [PATCH 23/24] [fix] rm comm, test and debug print

---
 .../coati/distributed/consumer.py             |  2 -
 .../coati/distributed/grpo_consumer.py        |  3 -
 .../ColossalChat/coati/distributed/launch.py  | 64 -------------------
 .../coati/distributed/producer.py             |  5 +-
 4 files changed, 1 insertion(+), 73 deletions(-)

diff --git a/applications/ColossalChat/coati/distributed/consumer.py b/applications/ColossalChat/coati/distributed/consumer.py
index f92dc6c06968..b5e748d19264 100644
--- a/applications/ColossalChat/coati/distributed/consumer.py
+++ b/applications/ColossalChat/coati/distributed/consumer.py
@@ -55,9 +55,7 @@ def __init__(
         self.model_config = model_config
         self.plugin_config = plugin_config
 
-        # self.device = get_current_device()
         self.device = "npu"
-        # self.device = torch.device(f"npu:{torch.npu.current_device()}")
         self.lr_scheduler = None
         self.generate_config = generate_config
 
diff --git a/applications/ColossalChat/coati/distributed/grpo_consumer.py b/applications/ColossalChat/coati/distributed/grpo_consumer.py
index ea2ca0f7c53f..eaf3521b6381 100644
--- a/applications/ColossalChat/coati/distributed/grpo_consumer.py
+++ b/applications/ColossalChat/coati/distributed/grpo_consumer.py
@@ -341,7 +341,6 @@ def step(self, step_idx: int, pbar: Any, **kwargs) -> Optional[float]:
                                 num_action,
                                 self.plugin.shard_config,
                             )
-                            del reference_model_logits
                         else:
                             # Dummy reference logprobs for data iterator.
                             reference_action_log_probs = None
@@ -421,7 +420,6 @@ def _criterion(outputs, inputs):
                         num_action,
                         self.plugin.shard_config,
                     )
-                    del policy_model_logits
 
                     if self.policy_loss_fn.beta > 0:
                         with torch.no_grad():
@@ -435,7 +433,6 @@ def _criterion(outputs, inputs):
                             num_action,
                             self.plugin.shard_config,
                         )
-                        del reference_model_logits
                         per_token_kl = (
                             torch.exp(reference_action_log_probs - action_log_probs)
                             - (reference_action_log_probs - action_log_probs)
diff --git a/applications/ColossalChat/coati/distributed/launch.py b/applications/ColossalChat/coati/distributed/launch.py
index 6bb10f9e7ac1..50169a49ff19 100644
--- a/applications/ColossalChat/coati/distributed/launch.py
+++ b/applications/ColossalChat/coati/distributed/launch.py
@@ -65,9 +65,6 @@ def launch_distributed(
         core_consumer = ALGO_MAP.get(core_algo, SimpleConsumer)
 
     train_dp_size = get_dp_size_fast(num_consumer_procs, plugin_config)
-    print(
-        f"inference_batch_size {inference_batch_size} num_producers {num_producers} train_batch_size {train_batch_size} train_dp_size {train_dp_size}"
-    )
     assert (inference_batch_size * num_producers) % (train_batch_size * train_dp_size) == 0
 
     dataset_path = train_dataset_config["path"]
@@ -83,64 +80,6 @@ def launch_distributed(
         f"{project_name.replace(' ','_')}_run_{wandb_group_name}.jsonl",
     )
 
-    # ###########################################
-    # # Old version, may lead colossalai init stuck in multinodes
-    # ############################################
-    # procs = []
-    # for i in range(num_producers):
-    #     # producer = SimpleProducer.options(num_gpus=num_proc_per_producer).remote(
-    #     producer = SimpleProducer.options(num_cpus=1, resources={"NPU":num_proc_per_producer}).remote(
-    #         producer_idx=i,
-    #         num_producers=num_producers,
-    #         num_consumer_procs=num_consumer_procs,
-    #         num_episodes=num_episodes,
-    #         batch_size=inference_batch_size,
-    #         dataset_config=dataset_config,
-    #         dataloaders_config=dataloaders_config,
-    #         model_config=inference_model_config,
-    #         generate_config=generate_config,
-    #         tokenizer_config=tokenizer_config,
-    #         microbatch_size=inference_microbatch_size,
-    #         backend=inference_backend,
-    #         num_generations=num_generations,
-    #         consumer_plugin_config=plugin_config,
-    #     )
-    #     procs.append(producer)
-    # generate_config_consumer = copy.deepcopy(generate_config)
-    # generate_config_consumer.update(
-    #     dict(
-    #         backend=inference_backend,
-    #     )
-    # )
-    # for i in range(num_consumer_procs):
-    #     # consumer = core_consumer.options(num_gpus=1).remote(
-    #     consumer = core_consumer.options(num_cpus=1, resources={"NPU":1}).remote(
-    #         num_producers=num_producers,
-    #         num_episodes=num_episodes,
-    #         rank=i,
-    #         world_size=num_consumer_procs,
-    #         master_addr=master_addr,
-    #         master_port=master_port,
-    #         num_update_per_episode=num_update_per_episode,
-    #         num_recv_per_update=num_recv_per_update,
-    #         batch_size=train_batch_size,
-    #         model_config=train_model_config,
-    #         plugin_config=plugin_config,
-    #         minibatch_size=train_minibatch_size,
-    #         generate_config=generate_config_consumer,
-    #         grpo_config=grpo_config,
-    #         num_generations=num_generations,
-    #         project_name=project_name,
-    #         save_interval=save_interval,
-    #         save_dir=save_dir,
-    #     )
-    #     procs.append(consumer)
-    # ray.get([p.setup.remote() for p in procs])
-    # ray.get([p.loop.remote() for p in procs])
-
-    ###########################################
-    # New version, assign master ip for colossalai & vllm respectively
-    ###########################################
     nodes = ray.nodes()
     node_info = {
         node["NodeID"]: {
@@ -150,14 +89,12 @@ def launch_distributed(
         }  # Default to 0 if no GPUs are available
         for node in nodes
     }
-    print(f"node_info {node_info}")
     gpu_to_node_id = []
     gpu_to_ip_address = []
     for node_id in node_info:
         for idx in range(int(node_info[node_id]["num_gpus"])):  # use num_gpus instead of num_npus
             gpu_to_node_id.append(node_id)
             gpu_to_ip_address.append(node_info[node_id]["address"])
-    print(f"node_info {node_info} \n gpu_to_node_id {gpu_to_node_id} \n gpu_to_ip_address {gpu_to_ip_address} \n")
 
     producer_procs = []
 
@@ -232,7 +169,6 @@ def launch_distributed(
             num_episodes=num_episodes,
             rank=i,
             world_size=num_consumer_procs,
-            # master_addr=master_addr,
             master_addr=consumer_master_ip_address,
             master_port=master_port,
             num_update_per_episode=num_update_per_episode,
diff --git a/applications/ColossalChat/coati/distributed/producer.py b/applications/ColossalChat/coati/distributed/producer.py
index 2911559929c2..436bbe32eb67 100644
--- a/applications/ColossalChat/coati/distributed/producer.py
+++ b/applications/ColossalChat/coati/distributed/producer.py
@@ -150,10 +150,8 @@ def __init__(
                 raise ValueError(f"Unknown evaluation function type {evaluation_function_type}")
         else:
             print("No eval dataset provided, skip eval")
-        self.device = get_current_device()
-        # self.device = get_current_device()
+
         self.device = "npu"
-        # self.device = torch.device(f"npu:{torch.npu.current_device()}")
 
         # init backend
         if backend in BACKEND_MAP:
@@ -251,7 +249,6 @@ def loop(self) -> None:
                 outputs["temperature"] = torch.tensor(
                     [self.model.generate_config["temperature"]] * outputs["input_ids"].size(0)
                 ).to(outputs["input_ids"].device)
-                # outputs = pre_send(outputs)
                 ray_broadcast_tensor_dict(
                     outputs, src=0, device=self.device, group_name=f"sync_data_{self.producer_idx}"
                 )

From ed265e3ee0dae89f17ff930b1928772a945503bf Mon Sep 17 00:00:00 2001
From: "pre-commit-ci[bot]"
 <66853113+pre-commit-ci[bot]@users.noreply.github.com>
Date: Wed, 28 May 2025 02:04:33 +0000
Subject: [PATCH 24/24] [pre-commit.ci] auto fixes from pre-commit.com hooks

for more information, see https://pre-commit.ci
---
 applications/ColossalChat/coati/distributed/producer.py | 2 --
 1 file changed, 2 deletions(-)

diff --git a/applications/ColossalChat/coati/distributed/producer.py b/applications/ColossalChat/coati/distributed/producer.py
index 436bbe32eb67..66a3c5967894 100644
--- a/applications/ColossalChat/coati/distributed/producer.py
+++ b/applications/ColossalChat/coati/distributed/producer.py
@@ -15,8 +15,6 @@
 from torch.utils.data import DataLoader, DistributedSampler
 from transformers import AutoTokenizer
 
-from colossalai.utils import get_current_device
-
 from .comm import ray_broadcast_tensor_dict
 from .inference_backend import BACKEND_MAP
 from .utils import safe_append_to_jsonl_file