ROCm · Copilot · Oct 19, 2025 · Oct 19, 2025 · Oct 19, 2025
@@ -220,6 +220,12 @@ def _worker(local_rank: int, world_size: int, init_url: str, args: dict):
             "ms": 0,
             "experiments": 0,
         },
+        "total": {
+            "start_event": torch.cuda.Event(enable_timing=True),
+            "end_event": torch.cuda.Event(enable_timing=True),
+            "ms": 0,
+            "experiments": 0,
+        },
     }
 
     # Allocate Timestamps
@@ -237,6 +243,9 @@ def run_experiment():
             timestamps.reset()
             shmem.barrier()
 
+        # Record start of actual work (after initial barrier)
+        kernel_timing["total"]["start_event"].record()
+
         # Determine what to run based on flags
         run_gemm = not args["only_comm"]
         run_comm = not args["only_gemm"]
@@ -303,6 +312,10 @@ def run_experiment():
                 kernel_timing["communication"]["experiments"] += 1
             torch.cuda.nvtx.range_pop()
 
+        # Record end of actual work (before final barrier)
+        kernel_timing["total"]["end_event"].record()
+        kernel_timing["total"]["experiments"] += 1
+
         shmem.barrier()
 
         # Update timing for operations that were run
@@ -312,6 +325,10 @@ def run_experiment():
         if run_comm:
             ms = kernel_timing["communication"]["start_event"].elapsed_time(kernel_timing["communication"]["end_event"])
             kernel_timing["communication"]["ms"] += ms
+
+        # Update total timing
+        ms = kernel_timing["total"]["start_event"].elapsed_time(kernel_timing["total"]["end_event"])
+        kernel_timing["total"]["ms"] += ms
 
         torch.cuda.nvtx.range_pop()
 
@@ -323,7 +340,7 @@ def run_experiment():
 
     shmem.barrier()
 
-    for k in ["gemm", "communication"]:
+    for k in ["gemm", "communication", "total"]:
         kernel_timing[k]["ms"] = 0
         kernel_timing[k]["experiments"] = 0
 
@@ -387,7 +404,10 @@ def run_experiment():
         matmul.set_debug(False)
         shmem.info("Benchmarking...")
         perf = lambda ms: 2 * args["m"] * args["n"] * args["k"] * 1e-12 / (ms * 1e-3)
-        triton_ms = iris.do_bench(run_experiment, shmem.barrier)
+        # Run benchmark to populate all timing measurements
+        iris.do_bench(run_experiment, shmem.barrier)
+        # Use the total timing recorded inside run_experiment (excludes do_bench overhead)
+        triton_ms = kernel_timing["total"]["ms"] / kernel_timing["total"]["experiments"]
         triton_tflops = perf(triton_ms)
         algo_string = "all_scatter"
 

@@ -211,6 +211,12 @@ def _worker(local_rank: int, world_size: int, init_url: str, args: dict):
             "ms": 0,
             "experiments": 0,
         },
+        "total": {
+            "start_event": torch.cuda.Event(enable_timing=True),
+            "end_event": torch.cuda.Event(enable_timing=True),
+            "ms": 0,
+            "experiments": 0,
+        },
     }
 
     # Allocate Timestamps
@@ -227,6 +233,9 @@ def run_experiment():
             timestamps.reset()
             shmem.barrier()
 
+        # Record start of actual work (after initial barrier)
+        kernel_timing["total"]["start_event"].record()
+
         # Determine what to run based on flags
         run_gemm = not args["only_comm"]
         run_comm = not args["only_gemm"]
@@ -297,6 +306,10 @@ def run_experiment():
                 kernel_timing["communication"]["experiments"] += 1
             torch.cuda.nvtx.range_pop()
 
+        # Record end of actual work (before final barrier)
+        kernel_timing["total"]["end_event"].record()
+        kernel_timing["total"]["experiments"] += 1
+
         shmem.barrier()
 
         # Update timing for operations that were run
@@ -306,6 +319,10 @@ def run_experiment():
         if run_comm:
             ms = kernel_timing["communication"]["start_event"].elapsed_time(kernel_timing["communication"]["end_event"])
             kernel_timing["communication"]["ms"] += ms
+
+        # Update total timing
+        ms = kernel_timing["total"]["start_event"].elapsed_time(kernel_timing["total"]["end_event"])
+        kernel_timing["total"]["ms"] += ms
 
         torch.cuda.nvtx.range_pop()
 
@@ -317,7 +334,7 @@ def run_experiment():
 
     shmem.barrier()
 
-    for k in ["gemm", "communication"]:
+    for k in ["gemm", "communication", "total"]:
         kernel_timing[k]["ms"] = 0
         kernel_timing[k]["experiments"] = 0
 
@@ -381,7 +398,10 @@ def run_experiment():
         matmul.set_debug(False)
         shmem.info("Benchmarking...")
         perf = lambda ms: 2 * args["m"] * args["n"] * args["k"] * 1e-12 / (ms * 1e-3)
-        triton_ms = iris.do_bench(run_experiment, shmem.barrier)
+        # Run benchmark to populate all timing measurements
+        iris.do_bench(run_experiment, shmem.barrier)
+        # Use the total timing recorded inside run_experiment (excludes do_bench overhead)
+        triton_ms = kernel_timing["total"]["ms"] / kernel_timing["total"]["experiments"]
         triton_tflops = perf(triton_ms)
 
         # Determine what was run based on flags