From e5dbe30a827344563612fd0f5c5a60340ae03d87 Mon Sep 17 00:00:00 2001
From: Ivan Podkidyshev <ipodkidyshev@nvidia.com>
Date: Sun, 22 Mar 2026 18:04:02 +0100
Subject: [PATCH 01/30] initial implementation

---
 src/cloudai/reporter.py                      | 527 ++++++++++++++++++-
 src/cloudai/util/general-report.jinja2       | 214 ++++++++
 src/cloudai/util/general-slurm-report.jinja2 | 214 ++++++++
 tests/test_reporter.py                       | 208 +++++++-
 4 files changed, 1134 insertions(+), 29 deletions(-)

diff --git a/src/cloudai/reporter.py b/src/cloudai/reporter.py
index 9f5b44110..514428d12 100644
--- a/src/cloudai/reporter.py
+++ b/src/cloudai/reporter.py
@@ -14,12 +14,14 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
+import ast
 import contextlib
+import io
 import logging
 import tarfile
-from dataclasses import dataclass
+from dataclasses import dataclass, field
 from pathlib import Path
-from typing import Optional
+from typing import Any, Optional
 
 import jinja2
 import toml
@@ -32,6 +34,155 @@
 from .core import CommandGenStrategy, Reporter, TestRun, case_name
 from .models.scenario import TestRunDetails
 from .systems.slurm import SlurmSystem, SlurmSystemMetadata
+from .systems.slurm.slurm_metadata import SlurmJobMetadata
+
+GPU_HOURLY_COST_USD = {
+    "H100": 4.50,
+    "B200": 8.00,
+    "GB200": 10.00,
+    "GB300": 12.00,
+}
+
+
+def _safe_literal_eval(raw: Any, default: Any) -> Any:
+    if isinstance(raw, str):
+        with contextlib.suppress(SyntaxError, ValueError):
+            return ast.literal_eval(raw)
+    return default
+
+
+def _format_scalar(value: Any) -> str:
+    if isinstance(value, float):
+        return f"{value:.4f}".rstrip("0").rstrip(".")
+    return str(value)
+
+
+def _format_duration(seconds: float | None) -> str:
+    if seconds is None:
+        return "n/a"
+
+    seconds = max(float(seconds), 0.0)
+    if seconds < 60:
+        return f"{seconds:.1f}s"
+
+    minutes, sec = divmod(round(seconds), 60)
+    hours, minutes = divmod(minutes, 60)
+    parts = []
+    if hours:
+        parts.append(f"{hours}h")
+    if minutes:
+        parts.append(f"{minutes}m")
+    if sec or not parts:
+        parts.append(f"{sec}s")
+    return " ".join(parts)
+
+
+def _format_float(value: float | None, precision: int = 2) -> str:
+    if value is None:
+        return "n/a"
+    return f"{value:.{precision}f}"
+
+
+def _format_percent(value: float | None) -> str:
+    if value is None:
+        return "n/a"
+    return f"{value:.2f}%"
+
+
+def _format_money(value: float | None) -> str:
+    if value is None:
+        return "n/a"
+    return f"${value:,.2f}"
+
+
+def _normalize_gpu_family(gpu_name: str | None) -> str | None:
+    if not gpu_name:
+        return None
+
+    upper = gpu_name.upper()
+    for family in GPU_HOURLY_COST_USD:
+        if family in upper:
+            return family
+    return None
+
+
+def _build_running_best(points: list[tuple[int, float]]) -> list[tuple[int, float]]:
+    running_best: list[tuple[int, float]] = []
+    best = None
+    for step, reward in points:
+        best = reward if best is None else max(best, reward)
+        running_best.append((step, best))
+    return running_best
+
+
+def _chart_points(points: list[tuple[int, float]], width: int, height: int, padding: int) -> list[tuple[float, float]]:
+    if not points:
+        return []
+
+    x_vals = [step for step, _ in points]
+    y_vals = [reward for _, reward in points]
+    min_x, max_x = min(x_vals), max(x_vals)
+    min_y, max_y = min(y_vals), max(y_vals)
+
+    x_span = max(max_x - min_x, 1)
+    y_span = max(max_y - min_y, 1e-9)
+    inner_width = width - 2 * padding
+    inner_height = height - 2 * padding
+
+    result = []
+    for step, reward in points:
+        x = padding + ((step - min_x) / x_span) * inner_width
+        y = height - padding - ((reward - min_y) / y_span) * inner_height
+        result.append((x, y))
+    return result
+
+
+def _polyline(points: list[tuple[float, float]]) -> str:
+    return " ".join(f"{x:.2f},{y:.2f}" for x, y in points)
+
+
+def _build_reward_chart_svg(steps: list["DSEStepData"]) -> str | None:
+    if not steps:
+        return None
+
+    width, height, padding = 720, 260, 34
+    reward_points = [(step.step, step.reward) for step in steps]
+    running_best = _build_running_best(reward_points)
+    reward_coords = _chart_points(reward_points, width, height, padding)
+    best_coords = _chart_points(running_best, width, height, padding)
+
+    reward_line = _polyline(reward_coords)
+    best_line = _polyline(best_coords)
+    y_vals = [reward for _, reward in reward_points]
+    y_min, y_max = min(y_vals), max(y_vals)
+
+    circles = []
+    for step_data, (x, y) in zip(steps, reward_coords, strict=True):
+        tooltip = (
+            f"Step {step_data.step} | Reward: {_format_float(step_data.reward, 4)}"
+            f" | Observation: {step_data.observation_display}"
+        )
+        circles.append(f'<circle cx="{x:.2f}" cy="{y:.2f}" r="4" fill="#1f77b4"><title>{tooltip}</title></circle>')
+
+    return "\n".join(
+        [
+            f'<svg viewBox="0 0 {width} {height}" class="dse-chart" role="img" '
+            f'aria-label="Reward over DSE steps. Min reward {_format_float(y_min, 4)}, '
+            f'max reward {_format_float(y_max, 4)}.">',
+            f'<line x1="{padding}" y1="{height - padding}" x2="{width - padding}" y2="{height - padding}" '
+            'stroke="#94a3b8" stroke-width="1" />',
+            f'<line x1="{padding}" y1="{padding}" x2="{padding}" y2="{height - padding}" '
+            'stroke="#94a3b8" stroke-width="1" />',
+            f'<polyline fill="none" stroke="#1f77b4" stroke-width="2" points="{reward_line}" />',
+            f'<polyline fill="none" stroke="#ef4444" stroke-width="2" stroke-dasharray="6 4" points="{best_line}" />',
+            *circles,
+            f'<text x="{width / 2:.0f}" y="{height - 6}" text-anchor="middle" fill="#475569" '
+            'font-size="12">Step</text>',
+            f'<text x="16" y="{height / 2:.0f}" transform="rotate(-90 16 {height / 2:.0f})" '
+            'text-anchor="middle" fill="#475569" font-size="12">Reward</text>',
+            "</svg>",
+        ]
+    )
 
 
 @dataclass
@@ -100,6 +251,88 @@ def from_test_runs(cls, test_runs: list[TestRun], results_root: Path) -> list["S
         return report_items
 
 
+@dataclass
+class DSEStepData:
+    """DSE step data."""
+
+    step: int
+    reward: float
+    observation: list[Any]
+    observation_display: str
+    action: dict[str, Any]
+    elapsed_time_sec: float | None = None
+    is_successful: bool = False
+
+
+@dataclass
+class DSEParameterRow:
+    """DSE parameter row."""
+
+    name: str
+    values: list[str]
+    best_value: str
+
+
+@dataclass
+class DSESummary:
+    """DSE summary report."""
+
+    name: str
+    description: str
+    iteration: int
+    output_root: Path
+    output_root_rel_path: str
+    total_space: int
+    executed_steps: int
+    skipped_steps: int
+    coverage_percent: float | None
+    best_step: int | None
+    best_reward: float | None
+    best_observation_display: str
+    avg_step_duration_sec: float | None
+    total_runtime_sec: float | None
+    projected_runtime_sec: float | None
+    saved_runtime_sec: float | None
+    success_count: int
+    failure_count: int
+    gpu_arch_label: str | None
+    gpu_arch_family: str | None
+    gpus_per_node: int | None
+    num_nodes: int | None
+    total_gpu_hours: float | None
+    projected_gpu_hours: float | None
+    saved_gpu_hours: float | None
+    estimated_saved_cost_usd: float | None
+    best_config_rel_path: str | None
+    best_scenario_rel_path: str | None
+    best_scenario_toml: str | None
+    analysis_rel_path: str | None
+    parameter_rows: list[DSEParameterRow] = field(default_factory=list)
+    chart_svg: str | None = None
+
+    @property
+    def display_name(self) -> str:
+        if self.iteration == 0:
+            return self.name
+        return f"{self.name} iter={self.iteration}"
+
+    @property
+    def status_text(self) -> str:
+        if self.failure_count == 0:
+            return "PASSED"
+        if self.success_count == 0:
+            return "FAILED"
+        return "PARTIAL"
+
+    @property
+    def status_style(self) -> str:
+        return {
+            "PASSED": "[green]PASSED[/green]",
+            "FAILED": "[red]FAILED[/red]",
+            "PARTIAL": "[yellow]PARTIAL[/yellow]",
+        }[self.status_text]
+
+
 class PerTestReporter(Reporter):
     """Generates reports per test using test-specific reporting strategies."""
 
@@ -125,6 +358,10 @@ def generate(self) -> None:
 class StatusReporter(Reporter):
     """Generates HTML status reports with system-specific templates."""
 
+    def __init__(self, system, test_scenario, results_root, config):
+        super().__init__(system, test_scenario, results_root, config)
+        self.dse_summaries: list[DSESummary] = []
+
     @property
     def template_file_path(self) -> Path:
         return Path(__file__).parent / "util"
@@ -138,10 +375,13 @@ def template_file(self) -> str:
     def best_dse_config_file_name(self, tr: TestRun) -> str:
         return f"{tr.name}.toml"
 
+    def best_dse_scenario_file_name(self, tr: TestRun) -> str:
+        return f"{tr.name}-best-in-scenario.toml"
+
     def generate(self) -> None:
         self.load_test_runs()
-        self.generate_scenario_report()
         self.report_best_dse_config()
+        self.generate_scenario_report()
         self.print_summary()
 
     def generate_scenario_report(self) -> None:
@@ -154,7 +394,15 @@ def generate_scenario_report(self) -> None:
             if isinstance(self.system, SlurmSystem)
             else ReportItem.from_test_runs(self.trs, self.results_root)
         )
-        report = template.render(name=self.test_scenario.name, report_items=report_items)
+        report = template.render(
+            name=self.test_scenario.name,
+            report_items=report_items,
+            dse_summaries=self.dse_summaries,
+            format_duration=_format_duration,
+            format_float=_format_float,
+            format_percent=_format_percent,
+            format_money=_format_money,
+        )
         report_path = self.results_root / f"{self.test_scenario.name}.html"
         with report_path.open("w") as f:
             f.write(report)
@@ -162,26 +410,239 @@ def generate_scenario_report(self) -> None:
         logging.info(f"Generated scenario report at {report_path}")
 
     def report_best_dse_config(self):
+        self.dse_summaries = []
         for tr in self.test_scenario.test_runs:
-            if not tr.test.is_dse_job:
+            if not tr.is_dse_job:
                 continue
 
-            tr_root = self.results_root / tr.name / f"{tr.current_iteration}"
-            trajectory_file = tr_root / "trajectory.csv"
-            if not trajectory_file.exists():
-                logging.warning(f"No trajectory file found for {tr.name} at {trajectory_file}")
+            self.dse_summaries.extend(self._build_dse_summaries(tr))
+
+    def _build_dse_summaries(self, original_tr: TestRun) -> list[DSESummary]:
+        summaries: list[DSESummary] = []
+        tr_base_dir = self.results_root / original_tr.name
+        if not tr_base_dir.exists():
+            return summaries
+
+        grouped_trs: dict[int, list[TestRun]] = {}
+        for tr in self.trs:
+            if tr.name != original_tr.name:
                 continue
+            grouped_trs.setdefault(tr.current_iteration, []).append(tr)
+        iteration_dirs = sorted((d for d in tr_base_dir.iterdir() if d.is_dir()), key=lambda p: int(p.name))
+        for iter_dir in iteration_dirs:
+            iteration = int(iter_dir.name)
+            summary = self._build_dse_summary_for_iteration(
+                original_tr, iteration, iter_dir, grouped_trs.get(iteration, [])
+            )
+            if summary is not None:
+                summaries.append(summary)
+        return summaries
+
+    def _build_dse_summary_for_iteration(
+        self, original_tr: TestRun, iteration: int, iter_dir: Path, step_trs: list[TestRun]
+    ) -> DSESummary | None:
+        trajectory_file = iter_dir / "trajectory.csv"
+        if not trajectory_file.exists():
+            logging.warning(f"No trajectory file found for {original_tr.name} at {trajectory_file}")
+            return None
+
+        df = lazy.pd.read_csv(trajectory_file)
+        if df.empty:
+            return None
+
+        steps_by_number = {tr.step: tr for tr in step_trs}
+        steps: list[DSEStepData] = []
+        for row in df.to_dict(orient="records"):
+            step_no = int(row["step"])
+            action = _safe_literal_eval(row.get("action"), {})
+            if not isinstance(action, dict):
+                action = {}
+            observation = _safe_literal_eval(row.get("observation"), [])
+            if not isinstance(observation, list):
+                observation = [observation]
+            elapsed_time = self._step_elapsed_time(iter_dir / str(step_no))
+            tr = steps_by_number.get(step_no)
+            is_successful = tr.test.was_run_successful(tr).is_successful if tr is not None else False
+            steps.append(
+                DSEStepData(
+                    step=step_no,
+                    reward=float(row["reward"]),
+                    observation=observation,
+                    observation_display=", ".join(_format_scalar(v) for v in observation) if observation else "n/a",
+                    action=action,
+                    elapsed_time_sec=elapsed_time,
+                    is_successful=is_successful,
+                )
+            )
+
+        if not steps:
+            return None
+
+        steps.sort(key=lambda step: step.step)
+        best_step_data = max(steps, key=lambda step: step.reward)
+        best_step_dir = iter_dir / str(best_step_data.step)
+        best_step_details = best_step_dir / CommandGenStrategy.TEST_RUN_DUMP_FILE_NAME
+        if not best_step_details.exists():
+            logging.warning(f"No test run dump found for best DSE step at {best_step_details}")
+            return None
+
+        with best_step_details.open() as f:
+            trd = TestRunDetails.model_validate(toml.load(f))
+
+        best_config_path = iter_dir / self.best_dse_config_file_name(original_tr)
+        logging.info(f"Writing best config for {original_tr.name} to {best_config_path}")
+        with best_config_path.open("w") as f:
+            toml.dump(trd.test_definition.model_dump(), f)
+
+        best_scenario_content = self._build_best_scenario_toml(original_tr, trd)
+        best_scenario_path = iter_dir / self.best_dse_scenario_file_name(original_tr)
+        with best_scenario_path.open("w") as f:
+            f.write(best_scenario_content)
+
+        elapsed_times = [step.elapsed_time_sec for step in steps if step.elapsed_time_sec is not None]
+        avg_step_duration_sec = sum(elapsed_times) / len(elapsed_times) if elapsed_times else None
+        total_runtime_sec = sum(elapsed_times) if elapsed_times else None
+        total_space = len(original_tr.all_combinations)
+        executed_steps = len(steps)
+        skipped_steps = max(total_space - executed_steps, 0)
+        coverage_percent = (executed_steps / total_space * 100.0) if total_space else None
+        projected_runtime_sec = avg_step_duration_sec * total_space if avg_step_duration_sec is not None else None
+        saved_runtime_sec = (
+            max(projected_runtime_sec - total_runtime_sec, 0.0)
+            if projected_runtime_sec is not None and total_runtime_sec is not None
+            else None
+        )
+
+        metadata = self._best_available_metadata(iter_dir, best_step_data.step)
+        gpu_arch_label = metadata.system.gpu_arch_type if metadata else None
+        gpu_arch_family = _normalize_gpu_family(gpu_arch_label)
+        num_nodes = trd.nnodes
+        gpus_per_node = getattr(self.system, "gpus_per_node", None)
+        total_gpu_hours = (
+            (total_runtime_sec / 3600.0) * num_nodes * gpus_per_node
+            if total_runtime_sec is not None and gpus_per_node is not None
+            else None
+        )
+        projected_gpu_hours = (
+            (projected_runtime_sec / 3600.0) * num_nodes * gpus_per_node
+            if projected_runtime_sec is not None and gpus_per_node is not None
+            else None
+        )
+        saved_gpu_hours = (
+            max(projected_gpu_hours - total_gpu_hours, 0.0)
+            if projected_gpu_hours is not None and total_gpu_hours is not None
+            else None
+        )
+        estimated_saved_cost_usd = (
+            saved_gpu_hours * GPU_HOURLY_COST_USD[gpu_arch_family]
+            if saved_gpu_hours is not None and gpu_arch_family in GPU_HOURLY_COST_USD
+            else None
+        )
+
+        success_count = sum(1 for step in steps if step.is_successful)
+        failure_count = len(steps) - success_count
+        best_action = best_step_data.action
+        parameter_rows = [
+            DSEParameterRow(
+                name=name,
+                values=[_format_scalar(value) for value in values],
+                best_value=_format_scalar(best_action.get(name, "n/a")),
+            )
+            for name, values in original_tr.param_space.items()
+        ]
+        analysis_file = iter_dir / "analysis.csv"
+
+        return DSESummary(
+            name=original_tr.name,
+            description=original_tr.test.description,
+            iteration=iteration,
+            output_root=iter_dir,
+            output_root_rel_path=f"./{iter_dir.relative_to(self.results_root)}",
+            total_space=total_space,
+            executed_steps=executed_steps,
+            skipped_steps=skipped_steps,
+            coverage_percent=coverage_percent,
+            best_step=best_step_data.step,
+            best_reward=best_step_data.reward,
+            best_observation_display=best_step_data.observation_display,
+            avg_step_duration_sec=avg_step_duration_sec,
+            total_runtime_sec=total_runtime_sec,
+            projected_runtime_sec=projected_runtime_sec,
+            saved_runtime_sec=saved_runtime_sec,
+            success_count=success_count,
+            failure_count=failure_count,
+            gpu_arch_label=gpu_arch_label,
+            gpu_arch_family=gpu_arch_family,
+            gpus_per_node=gpus_per_node,
+            num_nodes=num_nodes,
+            total_gpu_hours=total_gpu_hours,
+            projected_gpu_hours=projected_gpu_hours,
+            saved_gpu_hours=saved_gpu_hours,
+            estimated_saved_cost_usd=estimated_saved_cost_usd,
+            best_config_rel_path=f"./{best_config_path.relative_to(self.results_root)}",
+            best_scenario_rel_path=f"./{best_scenario_path.relative_to(self.results_root)}",
+            best_scenario_toml=best_scenario_content,
+            analysis_rel_path=f"./{analysis_file.relative_to(self.results_root)}" if analysis_file.exists() else None,
+            parameter_rows=parameter_rows,
+            chart_svg=_build_reward_chart_svg(steps),
+        )
 
-            df = lazy.pd.read_csv(trajectory_file)
-            best_step = df.loc[df["reward"].idxmax()]["step"]
-            best_step_details = tr_root / f"{best_step}" / CommandGenStrategy.TEST_RUN_DUMP_FILE_NAME
-            with best_step_details.open() as f:
-                trd = TestRunDetails.model_validate(toml.load(f))
+    def _build_best_scenario_toml(self, original_tr: TestRun, best_trd: TestRunDetails) -> str:
+        tdef = best_trd.test_definition.model_copy(deep=True)
+        tdef.agent = None
+        tdef.agent_steps = None
+        tdef.agent_reward_function = None
+        tdef.agent_config = None
+        tdef.agent_metrics = ["default"]
+
+        test_block: dict[str, Any] = {
+            "id": original_tr.name,
+            "num_nodes": best_trd.nnodes,
+            "name": tdef.name,
+            "description": tdef.description,
+            "test_template_name": tdef.test_template_name,
+            "cmd_args": tdef.cmd_args.model_dump(by_alias=True),
+        }
+        if original_tr.time_limit:
+            test_block["time_limit"] = original_tr.time_limit
+        if original_tr.nodes:
+            test_block["nodes"] = original_tr.nodes
+        if original_tr.exclude_nodes:
+            test_block["exclude_nodes"] = original_tr.exclude_nodes
+        if tdef.extra_env_vars:
+            test_block["extra_env_vars"] = tdef.extra_env_vars
+        if tdef.extra_container_mounts:
+            test_block["extra_container_mounts"] = tdef.extra_container_mounts
+        if tdef.git_repos:
+            test_block["git_repos"] = [repo.model_dump() for repo in tdef.git_repos]
+        if tdef.nsys:
+            test_block["nsys"] = tdef.nsys.model_dump(exclude_unset=True)
+        if original_tr.extra_srun_args:
+            test_block["extra_srun_args"] = original_tr.extra_srun_args
+
+        scenario_dict = {
+            "name": f"{best_trd.test_definition.name}_best_config",
+            "Tests": [test_block],
+        }
+        buffer = io.StringIO()
+        toml.dump(scenario_dict, buffer)
+        return buffer.getvalue()
+
+    @staticmethod
+    def _step_elapsed_time(step_dir: Path) -> float | None:
+        slurm_job_path = step_dir / "slurm-job.toml"
+        if not slurm_job_path.exists():
+            return None
 
-            best_config_path = tr_root / self.best_dse_config_file_name(tr)
-            logging.info(f"Writing best config for {tr.name} to {best_config_path}")
-            with best_config_path.open("w") as f:
-                toml.dump(trd.test_definition.model_dump(), f)
+        with slurm_job_path.open() as f:
+            metadata = SlurmJobMetadata.model_validate(toml.load(f))
+        return float(metadata.elapsed_time_sec)
+
+    def _best_available_metadata(self, iter_dir: Path, best_step: int) -> SlurmSystemMetadata | None:
+        if not isinstance(self.system, SlurmSystem):
+            return None
+        best_step_dir = iter_dir / str(best_step)
+        return SlurmReportItem.get_metadata(best_step_dir, self.results_root)
 
     def print_summary(self) -> None:
         if not self.trs:
@@ -192,15 +653,27 @@ def print_summary(self) -> None:
         for col in ["Case", "Status", "Details"]:
             table.add_column(col, overflow="fold")
 
-        for tr in self.trs:
-            tr_status = tr.test.was_run_successful(tr)
-            sts_text = f"[bold]{'[green]PASSED[/green]' if tr_status.is_successful else '[red]FAILED[/red]'}[/bold]"
-            display_path = str(tr.output_path.absolute())
-            with contextlib.suppress(ValueError):
-                display_path = str(tr.output_path.absolute().relative_to(Path.cwd()))
-            details_text = f"\n{tr_status.error_message}" if tr_status.error_message else ""
-            columns = [tr.name, sts_text, f"{display_path}{details_text}"]
-            table.add_row(*columns)
+        if self.dse_summaries:
+            for summary in self.dse_summaries:
+                details = [
+                    f"steps={summary.executed_steps}/{summary.total_space}",
+                    f"best_step={summary.best_step}",
+                    f"best_reward={_format_float(summary.best_reward, 4)}",
+                    f"failures={summary.failure_count}",
+                ]
+                if summary.best_scenario_rel_path:
+                    details.append(summary.best_scenario_rel_path)
+                table.add_row(summary.display_name, f"[bold]{summary.status_style}[/bold]", "\n".join(details))
+        else:
+            for tr in self.trs:
+                tr_status = tr.test.was_run_successful(tr)
+                sts_text = f"[bold]{'[green]PASSED[/green]' if tr_status.is_successful else '[red]FAILED[/red]'}[/bold]"
+                display_path = str(tr.output_path.absolute())
+                with contextlib.suppress(ValueError):
+                    display_path = str(tr.output_path.absolute().relative_to(Path.cwd()))
+                details_text = f"\n{tr_status.error_message}" if tr_status.error_message else ""
+                columns = [tr.name, sts_text, f"{display_path}{details_text}"]
+                table.add_row(*columns)
 
         console = Console()
         with console.capture() as capture:
diff --git a/src/cloudai/util/general-report.jinja2 b/src/cloudai/util/general-report.jinja2
index 696e6dcda..13585812c 100644
--- a/src/cloudai/util/general-report.jinja2
+++ b/src/cloudai/util/general-report.jinja2
@@ -1,6 +1,219 @@
 {% extends "base-report.jinja2" %}
 
+{% block extra_head %}
+<style>
+    .dse-summary {
+        margin: 2rem 0 3rem;
+        padding: 1.5rem;
+        border: 1px solid #e2e8f0;
+        border-radius: 16px;
+        background: linear-gradient(180deg, #ffffff 0%, #f8fbff 100%);
+        box-shadow: 0 8px 24px rgba(15, 23, 42, 0.05);
+    }
+    .metrics-grid {
+        display: grid;
+        grid-template-columns: repeat(auto-fit, minmax(160px, 1fr));
+        gap: 12px;
+        margin: 1rem 0 1.5rem;
+    }
+    .metric-card {
+        background: #fff;
+        border: 1px solid #dbe5f0;
+        border-radius: 12px;
+        padding: 0.9rem 1rem;
+    }
+    .metric-label {
+        color: #64748b;
+        font-size: 0.85rem;
+        margin-bottom: 0.25rem;
+    }
+    .metric-value {
+        color: #0f172a;
+        font-size: 1.3rem;
+        font-weight: 700;
+    }
+    .dse-section-grid {
+        display: grid;
+        grid-template-columns: 1.2fr 1fr;
+        gap: 18px;
+        align-items: start;
+    }
+    .dse-box {
+        background: #fff;
+        border: 1px solid #dbe5f0;
+        border-radius: 12px;
+        padding: 1rem;
+        margin-top: 1rem;
+    }
+    .context-list {
+        display: grid;
+        grid-template-columns: repeat(auto-fit, minmax(180px, 1fr));
+        gap: 8px 16px;
+        margin: 0.75rem 0 0;
+    }
+    .context-list div {
+        font-size: 0.95rem;
+    }
+    .label {
+        color: #64748b;
+        display: block;
+        font-size: 0.82rem;
+    }
+    .value {
+        color: #0f172a;
+        font-weight: 600;
+    }
+    .best-link-list a {
+        margin-right: 1rem;
+        font-weight: 600;
+    }
+    .best-config-preview {
+        margin-top: 1rem;
+    }
+    .best-config-preview pre {
+        max-height: 320px;
+        overflow: auto;
+        padding: 1rem;
+        border-radius: 12px;
+        background: #0f172a;
+        color: #e2e8f0;
+    }
+    .best-value {
+        display: inline-block;
+        padding: 0.2rem 0.5rem;
+        border-radius: 999px;
+        background: #dbeafe;
+        color: #1d4ed8;
+        font-weight: 700;
+    }
+    .small-note {
+        color: #64748b;
+        font-size: 0.9rem;
+    }
+    .dse-chart {
+        width: 100%;
+        height: auto;
+        background: linear-gradient(180deg, #ffffff 0%, #f8fafc 100%);
+        border-radius: 12px;
+        border: 1px solid #dbe5f0;
+    }
+    @media (max-width: 900px) {
+        .dse-section-grid {
+            grid-template-columns: 1fr;
+        }
+    }
+</style>
+{% endblock %}
+
 {% block content %}
+{% if dse_summaries %}
+    {% for summary in dse_summaries %}
+    <section class="dse-summary">
+        <h2>{{ summary.display_name }}</h2>
+        <p>{{ summary.description }}</p>
+
+        <div class="metrics-grid">
+            <div class="metric-card">
+                <div class="metric-label">Space</div>
+                <div class="metric-value">{{ summary.total_space }}</div>
+            </div>
+            <div class="metric-card">
+                <div class="metric-label">Ran</div>
+                <div class="metric-value">{{ summary.executed_steps }}</div>
+            </div>
+            <div class="metric-card">
+                <div class="metric-label">Skipped</div>
+                <div class="metric-value">{{ summary.skipped_steps }}</div>
+            </div>
+            <div class="metric-card">
+                <div class="metric-label">Coverage</div>
+                <div class="metric-value">{{ format_percent(summary.coverage_percent) }}</div>
+            </div>
+            <div class="metric-card">
+                <div class="metric-label">Saved Time</div>
+                <div class="metric-value">{{ format_duration(summary.saved_runtime_sec) }}</div>
+            </div>
+            <div class="metric-card">
+                <div class="metric-label">Saved GPU-Hours</div>
+                <div class="metric-value">{{ format_float(summary.saved_gpu_hours, 2) }}</div>
+            </div>
+            <div class="metric-card">
+                <div class="metric-label">Estimated $ Saved</div>
+                <div class="metric-value">{{ format_money(summary.estimated_saved_cost_usd) }}</div>
+            </div>
+        </div>
+
+        <div class="dse-box">
+            <h3>Execution Context</h3>
+            <div class="context-list">
+                <div><span class="label">Status</span><span class="value">{{ summary.status_text }}</span></div>
+                <div><span class="label">GPU Family</span><span class="value">{{ summary.gpu_arch_family or "unknown" }}</span></div>
+                <div><span class="label">GPU Label</span><span class="value">{{ summary.gpu_arch_label or "unknown" }}</span></div>
+                <div><span class="label">GPUs Per Node</span><span class="value">{{ summary.gpus_per_node or "unknown" }}</span></div>
+                <div><span class="label">Nodes</span><span class="value">{{ summary.num_nodes or "unknown" }}</span></div>
+                <div><span class="label">Step Success/Failure</span><span class="value">{{ summary.success_count }}/{{ summary.failure_count }}</span></div>
+                <div><span class="label">Average Step Runtime</span><span class="value">{{ format_duration(summary.avg_step_duration_sec) }}</span></div>
+                <div><span class="label">Observed Runtime</span><span class="value">{{ format_duration(summary.total_runtime_sec) }}</span></div>
+                <div><span class="label">Projected Full-Space Runtime</span><span class="value">{{ format_duration(summary.projected_runtime_sec) }}</span></div>
+            </div>
+        </div>
+
+        <div class="dse-section-grid">
+            <div>
+                <div class="dse-box">
+                    <h3>Best Step</h3>
+                    <div class="context-list">
+                        <div><span class="label">Best Step</span><span class="value">{{ summary.best_step }}</span></div>
+                        <div><span class="label">Best Reward</span><span class="value">{{ format_float(summary.best_reward, 4) }}</span></div>
+                        <div><span class="label">Best Observation</span><span class="value">{{ summary.best_observation_display }}</span></div>
+                        <div><span class="label">Run Folder</span><span class="value"><a href="{{ summary.output_root_rel_path }}">open</a></span></div>
+                    </div>
+                    <div class="best-link-list" style="margin-top: 1rem;">
+                        {% if summary.best_config_rel_path %}<a href="{{ summary.best_config_rel_path }}">Best Test TOML</a>{% endif %}
+                        {% if summary.best_scenario_rel_path %}<a href="{{ summary.best_scenario_rel_path }}">Best Scenario TOML</a>{% endif %}
+                        {% if summary.analysis_rel_path %}<a href="{{ summary.analysis_rel_path }}">BO Analysis</a>{% endif %}
+                    </div>
+                    {% if summary.best_scenario_toml %}
+                    <details class="best-config-preview">
+                        <summary>Show best scenario TOML</summary>
+                        <pre>{{ summary.best_scenario_toml }}</pre>
+                    </details>
+                    {% endif %}
+                </div>
+
+                <div class="dse-box">
+                    <h3>Exploration Space</h3>
+                    <p class="small-note">Each row shows the allowed values for a swept parameter and the selected best value.</p>
+                    <table>
+                        <tr>
+                            <th>Parameter</th>
+                            <th>Allowed Values</th>
+                            <th>Best</th>
+                        </tr>
+                        {% for row in summary.parameter_rows %}
+                        <tr>
+                            <td>{{ row.name }}</td>
+                            <td>{{ row.values | join(", ") }}</td>
+                            <td><span class="best-value">{{ row.best_value }}</span></td>
+                        </tr>
+                        {% endfor %}
+                    </table>
+                </div>
+            </div>
+
+            <div class="dse-box">
+                <h3>Reward Over Steps</h3>
+                <p class="small-note">Blue shows observed reward per trial. Red dashed shows the best-so-far curve.</p>
+                {% if summary.chart_svg %}
+                    {{ summary.chart_svg | safe }}
+                {% else %}
+                    <p>No reward data available.</p>
+                {% endif %}
+            </div>
+        </div>
+    </section>
+    {% endfor %}
+{% else %}
 <table>
     <tr>
         <th>Test</th>
@@ -19,4 +232,5 @@
     </tr>
     {% endfor %}
 </table>
+{% endif %}
 {% endblock %}
diff --git a/src/cloudai/util/general-slurm-report.jinja2 b/src/cloudai/util/general-slurm-report.jinja2
index c37b0aa0f..9298be928 100644
--- a/src/cloudai/util/general-slurm-report.jinja2
+++ b/src/cloudai/util/general-slurm-report.jinja2
@@ -1,6 +1,219 @@
 {% extends "base-report.jinja2" %}
 
+{% block extra_head %}
+<style>
+    .dse-summary {
+        margin: 2rem 0 3rem;
+        padding: 1.5rem;
+        border: 1px solid #e2e8f0;
+        border-radius: 16px;
+        background: linear-gradient(180deg, #ffffff 0%, #f8fbff 100%);
+        box-shadow: 0 8px 24px rgba(15, 23, 42, 0.05);
+    }
+    .metrics-grid {
+        display: grid;
+        grid-template-columns: repeat(auto-fit, minmax(160px, 1fr));
+        gap: 12px;
+        margin: 1rem 0 1.5rem;
+    }
+    .metric-card {
+        background: #fff;
+        border: 1px solid #dbe5f0;
+        border-radius: 12px;
+        padding: 0.9rem 1rem;
+    }
+    .metric-label {
+        color: #64748b;
+        font-size: 0.85rem;
+        margin-bottom: 0.25rem;
+    }
+    .metric-value {
+        color: #0f172a;
+        font-size: 1.3rem;
+        font-weight: 700;
+    }
+    .dse-section-grid {
+        display: grid;
+        grid-template-columns: 1.2fr 1fr;
+        gap: 18px;
+        align-items: start;
+    }
+    .dse-box {
+        background: #fff;
+        border: 1px solid #dbe5f0;
+        border-radius: 12px;
+        padding: 1rem;
+        margin-top: 1rem;
+    }
+    .context-list {
+        display: grid;
+        grid-template-columns: repeat(auto-fit, minmax(180px, 1fr));
+        gap: 8px 16px;
+        margin: 0.75rem 0 0;
+    }
+    .context-list div {
+        font-size: 0.95rem;
+    }
+    .label {
+        color: #64748b;
+        display: block;
+        font-size: 0.82rem;
+    }
+    .value {
+        color: #0f172a;
+        font-weight: 600;
+    }
+    .best-link-list a {
+        margin-right: 1rem;
+        font-weight: 600;
+    }
+    .best-config-preview {
+        margin-top: 1rem;
+    }
+    .best-config-preview pre {
+        max-height: 320px;
+        overflow: auto;
+        padding: 1rem;
+        border-radius: 12px;
+        background: #0f172a;
+        color: #e2e8f0;
+    }
+    .best-value {
+        display: inline-block;
+        padding: 0.2rem 0.5rem;
+        border-radius: 999px;
+        background: #dbeafe;
+        color: #1d4ed8;
+        font-weight: 700;
+    }
+    .small-note {
+        color: #64748b;
+        font-size: 0.9rem;
+    }
+    .dse-chart {
+        width: 100%;
+        height: auto;
+        background: linear-gradient(180deg, #ffffff 0%, #f8fafc 100%);
+        border-radius: 12px;
+        border: 1px solid #dbe5f0;
+    }
+    @media (max-width: 900px) {
+        .dse-section-grid {
+            grid-template-columns: 1fr;
+        }
+    }
+</style>
+{% endblock %}
+
 {% block content %}
+{% if dse_summaries %}
+    {% for summary in dse_summaries %}
+    <section class="dse-summary">
+        <h2>{{ summary.display_name }}</h2>
+        <p>{{ summary.description }}</p>
+
+        <div class="metrics-grid">
+            <div class="metric-card">
+                <div class="metric-label">Space</div>
+                <div class="metric-value">{{ summary.total_space }}</div>
+            </div>
+            <div class="metric-card">
+                <div class="metric-label">Ran</div>
+                <div class="metric-value">{{ summary.executed_steps }}</div>
+            </div>
+            <div class="metric-card">
+                <div class="metric-label">Skipped</div>
+                <div class="metric-value">{{ summary.skipped_steps }}</div>
+            </div>
+            <div class="metric-card">
+                <div class="metric-label">Coverage</div>
+                <div class="metric-value">{{ format_percent(summary.coverage_percent) }}</div>
+            </div>
+            <div class="metric-card">
+                <div class="metric-label">Saved Time</div>
+                <div class="metric-value">{{ format_duration(summary.saved_runtime_sec) }}</div>
+            </div>
+            <div class="metric-card">
+                <div class="metric-label">Saved GPU-Hours</div>
+                <div class="metric-value">{{ format_float(summary.saved_gpu_hours, 2) }}</div>
+            </div>
+            <div class="metric-card">
+                <div class="metric-label">Estimated $ Saved</div>
+                <div class="metric-value">{{ format_money(summary.estimated_saved_cost_usd) }}</div>
+            </div>
+        </div>
+
+        <div class="dse-box">
+            <h3>Execution Context</h3>
+            <div class="context-list">
+                <div><span class="label">Status</span><span class="value">{{ summary.status_text }}</span></div>
+                <div><span class="label">GPU Family</span><span class="value">{{ summary.gpu_arch_family or "unknown" }}</span></div>
+                <div><span class="label">GPU Label</span><span class="value">{{ summary.gpu_arch_label or "unknown" }}</span></div>
+                <div><span class="label">GPUs Per Node</span><span class="value">{{ summary.gpus_per_node or "unknown" }}</span></div>
+                <div><span class="label">Nodes</span><span class="value">{{ summary.num_nodes or "unknown" }}</span></div>
+                <div><span class="label">Step Success/Failure</span><span class="value">{{ summary.success_count }}/{{ summary.failure_count }}</span></div>
+                <div><span class="label">Average Step Runtime</span><span class="value">{{ format_duration(summary.avg_step_duration_sec) }}</span></div>
+                <div><span class="label">Observed Runtime</span><span class="value">{{ format_duration(summary.total_runtime_sec) }}</span></div>
+                <div><span class="label">Projected Full-Space Runtime</span><span class="value">{{ format_duration(summary.projected_runtime_sec) }}</span></div>
+            </div>
+        </div>
+
+        <div class="dse-section-grid">
+            <div>
+                <div class="dse-box">
+                    <h3>Best Step</h3>
+                    <div class="context-list">
+                        <div><span class="label">Best Step</span><span class="value">{{ summary.best_step }}</span></div>
+                        <div><span class="label">Best Reward</span><span class="value">{{ format_float(summary.best_reward, 4) }}</span></div>
+                        <div><span class="label">Best Observation</span><span class="value">{{ summary.best_observation_display }}</span></div>
+                        <div><span class="label">Run Folder</span><span class="value"><a href="{{ summary.output_root_rel_path }}">open</a></span></div>
+                    </div>
+                    <div class="best-link-list" style="margin-top: 1rem;">
+                        {% if summary.best_config_rel_path %}<a href="{{ summary.best_config_rel_path }}">Best Test TOML</a>{% endif %}
+                        {% if summary.best_scenario_rel_path %}<a href="{{ summary.best_scenario_rel_path }}">Best Scenario TOML</a>{% endif %}
+                        {% if summary.analysis_rel_path %}<a href="{{ summary.analysis_rel_path }}">BO Analysis</a>{% endif %}
+                    </div>
+                    {% if summary.best_scenario_toml %}
+                    <details class="best-config-preview">
+                        <summary>Show best scenario TOML</summary>
+                        <pre>{{ summary.best_scenario_toml }}</pre>
+                    </details>
+                    {% endif %}
+                </div>
+
+                <div class="dse-box">
+                    <h3>Exploration Space</h3>
+                    <p class="small-note">Each row shows the allowed values for a swept parameter and the selected best value.</p>
+                    <table>
+                        <tr>
+                            <th>Parameter</th>
+                            <th>Allowed Values</th>
+                            <th>Best</th>
+                        </tr>
+                        {% for row in summary.parameter_rows %}
+                        <tr>
+                            <td>{{ row.name }}</td>
+                            <td>{{ row.values | join(", ") }}</td>
+                            <td><span class="best-value">{{ row.best_value }}</span></td>
+                        </tr>
+                        {% endfor %}
+                    </table>
+                </div>
+            </div>
+
+            <div class="dse-box">
+                <h3>Reward Over Steps</h3>
+                <p class="small-note">Blue shows observed reward per trial. Red dashed shows the best-so-far curve.</p>
+                {% if summary.chart_svg %}
+                    {{ summary.chart_svg | safe }}
+                {% else %}
+                    <p>No reward data available.</p>
+                {% endif %}
+            </div>
+        </div>
+    </section>
+    {% endfor %}
+{% else %}
 <table>
     <tr>
         <th>Test</th>
@@ -21,4 +234,5 @@
     </tr>
     {% endfor %}
 </table>
+{% endif %}
 {% endblock %}
diff --git a/tests/test_reporter.py b/tests/test_reporter.py
index 547c588c7..50d815b3c 100644
--- a/tests/test_reporter.py
+++ b/tests/test_reporter.py
@@ -15,6 +15,7 @@
 # limitations under the License.
 
 import copy
+import csv
 import tarfile
 from pathlib import Path
 
@@ -23,8 +24,8 @@
 
 from cloudai import TestRun, TestScenario
 from cloudai.cli.handlers import generate_reports
-from cloudai.core import Registry, Reporter, System
-from cloudai.models.scenario import ReportConfig
+from cloudai.core import CommandGenStrategy, Registry, Reporter, System
+from cloudai.models.scenario import ReportConfig, TestRunDetails
 from cloudai.reporter import PerTestReporter, SlurmReportItem, StatusReporter, TarballReporter
 from cloudai.systems.slurm.slurm_metadata import (
     MetadataCUDA,
@@ -40,6 +41,97 @@
 from cloudai.workloads.nccl_test import NCCLCmdArgs, NCCLTestDefinition
 
 
+def _write_successful_nccl_stdout(step_dir: Path) -> None:
+    (step_dir / "stdout.txt").write_text("# Out of bounds values\n# Avg bus bandwidth\n")
+
+
+def _write_slurm_job_metadata(step_dir: Path, elapsed_time_sec: int) -> None:
+    slurm_job = {
+        "job_id": 123456,
+        "name": "test-job",
+        "state": "COMPLETED",
+        "start_time": "2026-03-21T15:00:00",
+        "end_time": "2026-03-21T15:05:00",
+        "elapsed_time_sec": elapsed_time_sec,
+        "exit_code": "0:0",
+        "srun_cmd": "srun echo test",
+        "test_cmd": "echo test",
+        "is_single_sbatch": False,
+        "job_root": str(step_dir),
+        "job_steps": [],
+    }
+    with (step_dir / "slurm-job.toml").open("w") as f:
+        toml.dump(slurm_job, f)
+
+
+def _write_step_metadata(step_dir: Path, metadata: SlurmSystemMetadata) -> None:
+    metadata_dir = step_dir / "metadata"
+    metadata_dir.mkdir(parents=True, exist_ok=True)
+    with (metadata_dir / "node-0.toml").open("w") as f:
+        toml.dump(metadata.model_dump(), f)
+
+
+def _create_dse_report_fixture(
+    slurm_system: SlurmSystem,
+    slurm_metadata: SlurmSystemMetadata,
+    gpu_name: str = "NVIDIA H100 80GB HBM3",
+) -> TestRun:
+    test_definition = NCCLTestDefinition(
+        name="dse-nccl",
+        description="DSE summary sample",
+        test_template_name="NcclTest",
+        cmd_args=NCCLCmdArgs(
+            docker_image_url="fake://url/nccl",
+            subtest_name="all_reduce_perf_mpi",
+            nthreads=[1, 2],
+            datatype=["float", "uint8"],
+            blocking=[0, 1],
+        ),
+        agent_steps=3,
+    )
+    tr = TestRun(
+        name="dse-report",
+        test=test_definition,
+        num_nodes=2,
+        nodes=["node1", "node2"],
+        time_limit="00:05:00",
+    )
+    iter_dir = slurm_system.output_path / tr.name / "0"
+    iter_dir.mkdir(parents=True, exist_ok=True)
+
+    rows = [
+        (1, {"nthreads": 1, "datatype": "float", "blocking": 0}, 1.5, [2.5], 10),
+        (2, {"nthreads": 2, "datatype": "uint8", "blocking": 1}, 3.0, [1.2], 20),
+        (3, {"nthreads": 2, "datatype": "float", "blocking": 1}, 2.0, [1.8], 30),
+    ]
+
+    with (iter_dir / "trajectory.csv").open("w", newline="") as f:
+        writer = csv.writer(f)
+        writer.writerow(["step", "action", "reward", "observation"])
+        for step, action, reward, observation, _elapsed in rows:
+            writer.writerow([step, action, reward, observation])
+
+    for step, action, _reward, _observation, elapsed in rows:
+        step_dir = iter_dir / str(step)
+        step_dir.mkdir(parents=True, exist_ok=True)
+        step_tr = tr.apply_params_set(action)
+        step_tr.step = step
+        step_tr.output_path = step_dir
+
+        with (step_dir / CommandGenStrategy.TEST_RUN_DUMP_FILE_NAME).open("w") as f:
+            toml.dump(TestRunDetails.from_test_run(step_tr, "", "").model_dump(), f)
+
+        _write_successful_nccl_stdout(step_dir)
+        _write_slurm_job_metadata(step_dir, elapsed)
+
+    metadata = slurm_metadata.model_copy(deep=True)
+    metadata.system.gpu_arch_type = gpu_name
+    _write_step_metadata(iter_dir / "2", metadata)
+    (iter_dir / "analysis.csv").write_text("parameter,sensitivity,importance\nblocking,0.5,0.8\n")
+
+    return tr
+
+
 class TestLoadTestTuns:
     def test_load_test_runs_behcnmark_sorted(self, slurm_system: SlurmSystem, benchmark_tr: TestRun) -> None:
         reporter = PerTestReporter(
@@ -303,3 +395,115 @@ def test_report_order() -> None:
     assert reports[0][0] == "per_test"
     assert reports[-2][0] == "status"
     assert reports[-1][0] == "tarball"
+
+
+def test_dse_summary_and_best_scenario_artifacts(
+    slurm_system: SlurmSystem, slurm_metadata: SlurmSystemMetadata
+) -> None:
+    dse_tr = _create_dse_report_fixture(slurm_system, slurm_metadata)
+    reporter = StatusReporter(
+        slurm_system,
+        TestScenario(name="dse_scenario", test_runs=[dse_tr]),
+        slurm_system.output_path,
+        ReportConfig(),
+    )
+
+    reporter.load_test_runs()
+    reporter.report_best_dse_config()
+
+    assert len(reporter.dse_summaries) == 1
+    summary = reporter.dse_summaries[0]
+    assert summary.total_space == 8
+    assert summary.executed_steps == 3
+    assert summary.skipped_steps == 5
+    assert summary.coverage_percent == pytest.approx(37.5)
+    assert summary.best_step == 2
+    assert summary.best_reward == pytest.approx(3.0)
+    assert summary.best_observation_display == "1.2"
+    assert summary.avg_step_duration_sec == pytest.approx(20.0)
+    assert summary.total_runtime_sec == pytest.approx(60.0)
+    assert summary.projected_runtime_sec == pytest.approx(160.0)
+    assert summary.saved_runtime_sec == pytest.approx(100.0)
+    assert summary.saved_gpu_hours == pytest.approx((100.0 / 3600.0) * 16)
+    assert summary.estimated_saved_cost_usd == pytest.approx((summary.saved_gpu_hours or 0) * 4.5)
+    assert summary.gpu_arch_family == "H100"
+    assert summary.analysis_rel_path is not None
+
+    best_config_path = slurm_system.output_path / dse_tr.name / "0" / reporter.best_dse_config_file_name(dse_tr)
+    best_scenario_path = slurm_system.output_path / dse_tr.name / "0" / reporter.best_dse_scenario_file_name(dse_tr)
+    assert best_config_path.exists()
+    assert best_scenario_path.exists()
+
+    old_best = toml.load(best_config_path)
+    assert old_best["agent_steps"] == 3
+
+    best_scenario = toml.load(best_scenario_path)
+    assert best_scenario["Tests"][0]["cmd_args"]["datatype"] == "uint8"
+    assert best_scenario["Tests"][0]["cmd_args"]["blocking"] == 1
+    assert best_scenario["Tests"][0]["cmd_args"]["nthreads"] == 2
+    assert best_scenario["Tests"][0]["num_nodes"] == 2
+    assert "agent" not in best_scenario["Tests"][0]
+    assert "agent_steps" not in best_scenario["Tests"][0]
+
+
+def test_dse_generate_scenario_report_renders_html(
+    slurm_system: SlurmSystem, slurm_metadata: SlurmSystemMetadata
+) -> None:
+    dse_tr = _create_dse_report_fixture(slurm_system, slurm_metadata)
+    reporter = StatusReporter(
+        slurm_system,
+        TestScenario(name="dse_scenario", test_runs=[dse_tr]),
+        slurm_system.output_path,
+        ReportConfig(),
+    )
+
+    reporter.generate()
+
+    report_path = slurm_system.output_path / "dse_scenario.html"
+    html = report_path.read_text()
+    assert "Saved GPU-Hours" in html
+    assert "Reward Over Steps" in html
+    assert "Best Scenario TOML" in html
+    assert "BO Analysis" in html
+    assert "dse-report-best-in-scenario.toml" in html
+    assert "<svg" in html
+
+
+def test_dse_console_summary_is_compact(
+    slurm_system: SlurmSystem, slurm_metadata: SlurmSystemMetadata, caplog: pytest.LogCaptureFixture
+) -> None:
+    dse_tr = _create_dse_report_fixture(slurm_system, slurm_metadata)
+    reporter = StatusReporter(
+        slurm_system,
+        TestScenario(name="dse_scenario", test_runs=[dse_tr]),
+        slurm_system.output_path,
+        ReportConfig(),
+    )
+
+    reporter.load_test_runs()
+    reporter.report_best_dse_config()
+    with caplog.at_level("INFO"):
+        reporter.print_summary()
+
+    assert "steps=3/8" in caplog.text
+    assert "best_step=2" in caplog.text
+    assert "dse-report-best-in-scenario.toml" in caplog.text
+    assert "step=1" not in caplog.text
+
+
+def test_unknown_gpu_family_omits_estimated_cost(
+    slurm_system: SlurmSystem, slurm_metadata: SlurmSystemMetadata
+) -> None:
+    dse_tr = _create_dse_report_fixture(slurm_system, slurm_metadata, gpu_name="Mystery GPU")
+    reporter = StatusReporter(
+        slurm_system,
+        TestScenario(name="dse_scenario", test_runs=[dse_tr]),
+        slurm_system.output_path,
+        ReportConfig(),
+    )
+
+    reporter.load_test_runs()
+    reporter.report_best_dse_config()
+
+    assert reporter.dse_summaries[0].gpu_arch_family is None
+    assert reporter.dse_summaries[0].estimated_saved_cost_usd is None

From 62fe3b87bb33f8fdece411e7972d45db9ec45a6c Mon Sep 17 00:00:00 2001
From: Ivan Podkidyshev <ipodkidyshev@nvidia.com>
Date: Sun, 22 Mar 2026 19:35:20 +0100
Subject: [PATCH 02/30] refactored ai code

---
 pyproject.toml                                |   4 +-
 src/cloudai/report_generator/status_report.py | 507 ++++++++++++++
 src/cloudai/reporter.py                       | 652 ++----------------
 src/cloudai/util/general-report.jinja2        |  15 +-
 src/cloudai/util/general-slurm-report.jinja2  | 238 -------
 tests/test_reporter.py                        | 140 ++--
 6 files changed, 652 insertions(+), 904 deletions(-)
 create mode 100644 src/cloudai/report_generator/status_report.py
 delete mode 100644 src/cloudai/util/general-slurm-report.jinja2

diff --git a/pyproject.toml b/pyproject.toml
index fa80670bb..4e14aa151 100644
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -145,8 +145,8 @@ root_package = "cloudai"
   [[tool.importlinter.contracts]]
   name = "Report generator is leaf dependency"
   type = "forbidden"
-  forbidden_modules = ["cloudai.systems", "cloudai.workloads", "cloudai.cli"]
-  allow_indirect_imports = true                                               # allow "from cloudai.core import ..."
+  forbidden_modules = ["cloudai.workloads", "cloudai.cli"]
+  allow_indirect_imports = true                            # allow "from cloudai.core import ..."
   source_modules = ["cloudai.report_generator"]
 
   [[tool.importlinter.contracts]]
diff --git a/src/cloudai/report_generator/status_report.py b/src/cloudai/report_generator/status_report.py
new file mode 100644
index 000000000..cfb732e38
--- /dev/null
+++ b/src/cloudai/report_generator/status_report.py
@@ -0,0 +1,507 @@
+# SPDX-FileCopyrightText: NVIDIA CORPORATION & AFFILIATES
+# Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# SPDX-License-Identifier: Apache-2.0
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+from __future__ import annotations
+
+import ast
+import contextlib
+import logging
+from dataclasses import dataclass, field
+from pathlib import Path
+from typing import Any, Optional
+
+import toml
+
+from cloudai.core import CommandGenStrategy, TestRun, case_name
+from cloudai.models.scenario import TestRunDetails
+from cloudai.util.lazy_imports import lazy
+
+from ..systems.slurm import SlurmJobMetadata, SlurmSystemMetadata
+
+GPU_HOURLY_COST_USD = {
+    "H100": 4.50,
+    "B200": 8.00,
+    "GB200": 10.00,
+    "GB300": 12.00,
+}
+
+
+def format_duration(seconds: float | None) -> str:
+    if seconds is None:
+        return "n/a"
+
+    seconds = max(float(seconds), 0.0)
+    if seconds < 60:
+        return f"{seconds:.1f}s"
+
+    minutes, sec = divmod(round(seconds), 60)
+    hours, minutes = divmod(minutes, 60)
+    parts = []
+    if hours:
+        parts.append(f"{hours}h")
+    if minutes:
+        parts.append(f"{minutes}m")
+    if sec or not parts:
+        parts.append(f"{sec}s")
+    return " ".join(parts)
+
+
+def format_float(value: float | None, precision: int = 2) -> str:
+    if value is None:
+        return "n/a"
+    return f"{value:.{precision}f}"
+
+
+def format_percent(value: float | None) -> str:
+    if value is None:
+        return "n/a"
+    return f"{value:.2f}%"
+
+
+def format_money(value: float | None) -> str:
+    if value is None:
+        return "n/a"
+    return f"${value:,.2f}"
+
+
+def _safe_literal_eval(raw: Any, default: Any) -> Any:
+    if isinstance(raw, str):
+        with contextlib.suppress(SyntaxError, ValueError):
+            return ast.literal_eval(raw)
+    return default
+
+
+def _format_scalar(value: Any) -> str:
+    if isinstance(value, float):
+        return f"{value:.4f}".rstrip("0").rstrip(".")
+    return str(value)
+
+
+def _normalize_gpu_family(gpu_name: str | None) -> str | None:
+    if not gpu_name:
+        return None
+
+    upper = gpu_name.upper()
+    for family in GPU_HOURLY_COST_USD:
+        if family in upper:
+            return family
+    return None
+
+
+def _build_running_best(points: list[tuple[int, float]]) -> list[tuple[int, float]]:
+    running_best: list[tuple[int, float]] = []
+    best = None
+    for step, reward in points:
+        best = reward if best is None else max(best, reward)
+        running_best.append((step, best))
+    return running_best
+
+
+def _chart_points(points: list[tuple[int, float]], width: int, height: int, padding: int) -> list[tuple[float, float]]:
+    if not points:
+        return []
+
+    x_vals = [step for step, _ in points]
+    y_vals = [reward for _, reward in points]
+    min_x, max_x = min(x_vals), max(x_vals)
+    min_y, max_y = min(y_vals), max(y_vals)
+
+    x_span = max(max_x - min_x, 1)
+    y_span = max(max_y - min_y, 1e-9)
+    inner_width = width - 2 * padding
+    inner_height = height - 2 * padding
+
+    result = []
+    for step, reward in points:
+        x = padding + ((step - min_x) / x_span) * inner_width
+        y = height - padding - ((reward - min_y) / y_span) * inner_height
+        result.append((x, y))
+    return result
+
+
+def _polyline(points: list[tuple[float, float]]) -> str:
+    return " ".join(f"{x:.2f},{y:.2f}" for x, y in points)
+
+
+def _build_reward_chart_svg(steps: list["DSEStepData"]) -> str | None:
+    if not steps:
+        return None
+
+    width, height, padding = 720, 260, 34
+    reward_points = [(step.step, step.reward) for step in steps]
+    running_best = _build_running_best(reward_points)
+    reward_coords = _chart_points(reward_points, width, height, padding)
+    best_coords = _chart_points(running_best, width, height, padding)
+
+    reward_line = _polyline(reward_coords)
+    best_line = _polyline(best_coords)
+    y_vals = [reward for _, reward in reward_points]
+    y_min, y_max = min(y_vals), max(y_vals)
+
+    circles = []
+    for step_data, (x, y) in zip(steps, reward_coords, strict=True):
+        tooltip = (
+            f"Step {step_data.step} | Reward: {format_float(step_data.reward, 4)}"
+            f" | Observation: {step_data.observation_display}"
+        )
+        circles.append(f'<circle cx="{x:.2f}" cy="{y:.2f}" r="4" fill="#1f77b4"><title>{tooltip}</title></circle>')
+
+    return "\n".join(
+        [
+            f'<svg viewBox="0 0 {width} {height}" class="dse-chart" role="img" '
+            f'aria-label="Reward over DSE steps. Min reward {format_float(y_min, 4)}, '
+            f'max reward {format_float(y_max, 4)}.">',
+            f'<line x1="{padding}" y1="{height - padding}" x2="{width - padding}" y2="{height - padding}" '
+            'stroke="#94a3b8" stroke-width="1" />',
+            f'<line x1="{padding}" y1="{padding}" x2="{padding}" y2="{height - padding}" '
+            'stroke="#94a3b8" stroke-width="1" />',
+            f'<polyline fill="none" stroke="#1f77b4" stroke-width="2" points="{reward_line}" />',
+            f'<polyline fill="none" stroke="#ef4444" stroke-width="2" stroke-dasharray="6 4" points="{best_line}" />',
+            *circles,
+            f'<text x="{width / 2:.0f}" y="{height - 6}" text-anchor="middle" fill="#475569" '
+            'font-size="12">Step</text>',
+            f'<text x="16" y="{height / 2:.0f}" transform="rotate(-90 16 {height / 2:.0f})" '
+            'text-anchor="middle" fill="#475569" font-size="12">Reward</text>',
+            "</svg>",
+        ]
+    )
+
+
+def load_system_metadata(run_dir: Path, results_root: Path) -> SlurmSystemMetadata | None:
+    """Load system metadata from run_dir. At the moment it supports only Slurm."""
+    metadata_path = run_dir / "metadata"
+    if not metadata_path.exists():
+        logging.debug(f"No metadata folder found in {run_dir=}")
+        if not (results_root / "metadata").exists():
+            logging.debug(f"No metadata folder found in {results_root=}")
+            return None
+        metadata_path = results_root / "metadata"
+
+    node_files = list(metadata_path.glob("node-*.toml"))
+    if not node_files:
+        logging.debug(f"No node files found in {metadata_path}")
+        return None
+
+    node_file = node_files[0]
+    with node_file.open() as f:
+        try:
+            return SlurmSystemMetadata.model_validate(toml.load(f))
+        except Exception as e:
+            logging.debug(f"Error validating metadata for {node_file}: {e}")
+
+    return None
+
+
+@dataclass
+class ReportItem:
+    """Basic report item for general systems."""
+
+    name: str
+    description: str
+    logs_path: Optional[str] = None
+    nodes: Optional[SlurmSystemMetadata] = None
+
+    @classmethod
+    def from_test_runs(cls, test_runs: list[TestRun], results_root: Path) -> list["ReportItem"]:
+        report_items: list[ReportItem] = []
+        for tr in test_runs:
+            report_items.append(
+                ReportItem(
+                    name=case_name(tr),
+                    description=tr.test.description,
+                    logs_path=f"./{tr.output_path.relative_to(results_root)}" if tr.output_path.exists() else None,
+                    nodes=load_system_metadata(tr.output_path, results_root),
+                )
+            )
+        return report_items
+
+
+@dataclass
+class DSEStepData:
+    """DSE step data."""
+
+    step: int
+    reward: float
+    observation: list[Any]
+    observation_display: str
+    action: dict[str, Any]
+    elapsed_time_sec: int | None = None
+    is_successful: bool = False
+
+
+@dataclass
+class DSEParameterRow:
+    """DSE parameter row."""
+
+    name: str
+    values: list[str]
+    best_value: str
+
+
+@dataclass
+class DSESummary:
+    """Summary of a DSE iteration."""
+
+    name: str
+    description: str
+    iteration: int
+    output_root: Path
+    output_root_rel_path: str
+    total_space: int
+    executed_steps: int
+    skipped_steps: int
+    coverage_percent: float | None
+    best_step: int | None
+    best_reward: float | None
+    best_observation_display: str
+    avg_step_duration_sec: float | None
+    total_runtime_sec: float | None
+    projected_runtime_sec: float | None
+    saved_runtime_sec: float | None
+    success_count: int
+    failure_count: int
+    gpu_arch_label: str | None
+    gpu_arch_family: str | None
+    gpus_per_node: int | None
+    num_nodes: int | None
+    total_gpu_hours: float | None
+    projected_gpu_hours: float | None
+    saved_gpu_hours: float | None
+    estimated_saved_cost_usd: float | None
+    best_config_rel_path: str | None
+    best_config_toml: str | None
+    analysis_rel_path: str | None
+    parameter_rows: list[DSEParameterRow] = field(default_factory=list)
+    chart_svg: str | None = None
+
+    @property
+    def display_name(self) -> str:
+        if self.iteration == 0:
+            return self.name
+        return f"{self.name} iter={self.iteration}"
+
+    @property
+    def status_text(self) -> str:
+        if self.failure_count == 0:
+            return "PASSED"
+        if self.success_count == 0:
+            return "FAILED"
+        return "PARTIAL"
+
+    @property
+    def status_style(self) -> str:
+        return {
+            "PASSED": "[green]PASSED[/green]",
+            "FAILED": "[red]FAILED[/red]",
+            "PARTIAL": "[yellow]PARTIAL[/yellow]",
+        }[self.status_text]
+
+
+class DSEReportBuilder:
+    """Build DSE summaries and best-config artifacts from generated results."""
+
+    def __init__(self, system: Any, results_root: Path, loaded_test_runs: list[TestRun]):
+        self.system = system
+        self.results_root = results_root
+        self.loaded_test_runs = loaded_test_runs
+
+    @staticmethod
+    def best_config_file_name(tr: TestRun) -> str:
+        return f"{tr.name}.toml"
+
+    def build(self, original_test_runs: list[TestRun]) -> list[DSESummary]:
+        summaries: list[DSESummary] = []
+        for tr in original_test_runs:
+            if not tr.is_dse_job:
+                continue
+            summaries.extend(self._build_for_test_run(tr))
+        return summaries
+
+    def _build_for_test_run(self, original_tr: TestRun) -> list[DSESummary]:
+        summaries: list[DSESummary] = []
+        tr_base_dir = self.results_root / original_tr.name
+        if not tr_base_dir.exists():
+            return summaries
+
+        grouped_trs: dict[int, list[TestRun]] = {}
+        for tr in self.loaded_test_runs:
+            if tr.name != original_tr.name:
+                continue
+            grouped_trs.setdefault(tr.current_iteration, []).append(tr)
+
+        iteration_dirs = sorted((d for d in tr_base_dir.iterdir() if d.is_dir()), key=lambda p: int(p.name))
+        for iter_dir in iteration_dirs:
+            iteration = int(iter_dir.name)
+            summary = self._build_iteration_summary(original_tr, iteration, iter_dir, grouped_trs.get(iteration, []))
+            if summary is not None:
+                summaries.append(summary)
+        return summaries
+
+    def _build_iteration_summary(
+        self,
+        original_tr: TestRun,
+        iteration: int,
+        iter_dir: Path,
+        step_trs: list[TestRun],
+    ) -> DSESummary | None:
+        trajectory_file = iter_dir / "trajectory.csv"
+        if not trajectory_file.exists():
+            logging.warning(f"No trajectory file found for {original_tr.name} at {trajectory_file}")
+            return None
+
+        df = lazy.pd.read_csv(trajectory_file)
+        if df.empty:
+            return None
+
+        steps_by_number = {tr.step: tr for tr in step_trs}
+        steps: list[DSEStepData] = []
+        for row in df.to_dict(orient="records"):
+            step_no = int(row["step"])
+            action = _safe_literal_eval(row.get("action"), {})
+            if not isinstance(action, dict):
+                action = {}
+            observation = _safe_literal_eval(row.get("observation"), [])
+            if not isinstance(observation, list):
+                observation = [observation]
+            tr = steps_by_number.get(step_no)
+            is_successful = tr.test.was_run_successful(tr).is_successful if tr is not None else False
+            steps.append(
+                DSEStepData(
+                    step=step_no,
+                    reward=float(row["reward"]),
+                    observation=observation,
+                    observation_display=", ".join(_format_scalar(v) for v in observation) if observation else "n/a",
+                    action=action,
+                    elapsed_time_sec=self._step_elapsed_time(iter_dir / str(step_no)),
+                    is_successful=is_successful,
+                )
+            )
+
+        if not steps:
+            return None
+
+        steps.sort(key=lambda step: step.step)
+        best_step_data = max(steps, key=lambda step: step.reward)
+        best_step_dir = iter_dir / str(best_step_data.step)
+        best_step_details = best_step_dir / CommandGenStrategy.TEST_RUN_DUMP_FILE_NAME
+        if not best_step_details.exists():
+            logging.warning(f"No test run dump found for best DSE step at {best_step_details}")
+            return None
+
+        with best_step_details.open() as f:
+            trd = TestRunDetails.model_validate(toml.load(f))
+
+        best_config_path = iter_dir / self.best_config_file_name(original_tr)
+        with best_config_path.open("w") as f:
+            toml.dump(trd.test_definition.model_dump(), f)
+        best_config_toml = toml.dumps(trd.test_definition.model_dump())
+
+        elapsed_times = [step.elapsed_time_sec for step in steps if step.elapsed_time_sec is not None]
+        avg_step_duration_sec = sum(elapsed_times) / len(elapsed_times) if elapsed_times else None
+        total_runtime_sec = sum(elapsed_times) if elapsed_times else None
+        total_space = len(original_tr.all_combinations)
+        executed_steps = len(steps)
+        skipped_steps = max(total_space - executed_steps, 0)
+        coverage_percent = (executed_steps / total_space * 100.0) if total_space else None
+        projected_runtime_sec = avg_step_duration_sec * total_space if avg_step_duration_sec is not None else None
+        saved_runtime_sec = (
+            max(projected_runtime_sec - total_runtime_sec, 0.0)
+            if projected_runtime_sec is not None and total_runtime_sec is not None
+            else None
+        )
+
+        metadata = load_system_metadata(iter_dir / str(best_step_data.step), self.results_root)
+        gpu_arch_label = metadata.system.gpu_arch_type if metadata else None
+        gpu_arch_family = _normalize_gpu_family(gpu_arch_label)
+        num_nodes = trd.nnodes
+        gpus_per_node = getattr(self.system, "gpus_per_node", None)
+        total_gpu_hours = (
+            (total_runtime_sec / 3600.0) * num_nodes * gpus_per_node
+            if total_runtime_sec is not None and gpus_per_node is not None
+            else None
+        )
+        projected_gpu_hours = (
+            (projected_runtime_sec / 3600.0) * num_nodes * gpus_per_node
+            if projected_runtime_sec is not None and gpus_per_node is not None
+            else None
+        )
+        saved_gpu_hours = (
+            max(projected_gpu_hours - total_gpu_hours, 0.0)
+            if projected_gpu_hours is not None and total_gpu_hours is not None
+            else None
+        )
+        estimated_saved_cost_usd = (
+            saved_gpu_hours * GPU_HOURLY_COST_USD[gpu_arch_family]
+            if saved_gpu_hours is not None and gpu_arch_family in GPU_HOURLY_COST_USD
+            else None
+        )
+
+        success_count = sum(1 for step in steps if step.is_successful)
+        failure_count = len(steps) - success_count
+        best_action = best_step_data.action
+        parameter_rows = [
+            DSEParameterRow(
+                name=name,
+                values=[_format_scalar(value) for value in values],
+                best_value=_format_scalar(best_action.get(name, "n/a")),
+            )
+            for name, values in original_tr.param_space.items()
+        ]
+        analysis_file = iter_dir / "analysis.csv"
+
+        return DSESummary(
+            name=original_tr.name,
+            description=original_tr.test.description,
+            iteration=iteration,
+            output_root=iter_dir,
+            output_root_rel_path=f"./{iter_dir.relative_to(self.results_root)}",
+            total_space=total_space,
+            executed_steps=executed_steps,
+            skipped_steps=skipped_steps,
+            coverage_percent=coverage_percent,
+            best_step=best_step_data.step,
+            best_reward=best_step_data.reward,
+            best_observation_display=best_step_data.observation_display,
+            avg_step_duration_sec=avg_step_duration_sec,
+            total_runtime_sec=total_runtime_sec,
+            projected_runtime_sec=projected_runtime_sec,
+            saved_runtime_sec=saved_runtime_sec,
+            success_count=success_count,
+            failure_count=failure_count,
+            gpu_arch_label=gpu_arch_label,
+            gpu_arch_family=gpu_arch_family,
+            gpus_per_node=gpus_per_node,
+            num_nodes=num_nodes,
+            total_gpu_hours=total_gpu_hours,
+            projected_gpu_hours=projected_gpu_hours,
+            saved_gpu_hours=saved_gpu_hours,
+            estimated_saved_cost_usd=estimated_saved_cost_usd,
+            best_config_rel_path=f"./{best_config_path.relative_to(self.results_root)}",
+            best_config_toml=best_config_toml,
+            analysis_rel_path=f"./{analysis_file.relative_to(self.results_root)}" if analysis_file.exists() else None,
+            parameter_rows=parameter_rows,
+            chart_svg=_build_reward_chart_svg(steps),
+        )
+
+    @staticmethod
+    def _step_elapsed_time(step_dir: Path) -> int | None:
+        slurm_job_path = step_dir / "slurm-job.toml"
+        if not slurm_job_path.exists():
+            return None
+
+        with slurm_job_path.open() as f:
+            metadata = SlurmJobMetadata.model_validate(toml.load(f))
+        return metadata.elapsed_time_sec
diff --git a/src/cloudai/reporter.py b/src/cloudai/reporter.py
index 514428d12..56ee450ae 100644
--- a/src/cloudai/reporter.py
+++ b/src/cloudai/reporter.py
@@ -14,323 +14,26 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-import ast
 import contextlib
-import io
 import logging
 import tarfile
-from dataclasses import dataclass, field
 from pathlib import Path
-from typing import Any, Optional
 
 import jinja2
-import toml
 from rich import box
 from rich.console import Console
 from rich.table import Table
 
-from cloudai.util.lazy_imports import lazy
-
-from .core import CommandGenStrategy, Reporter, TestRun, case_name
-from .models.scenario import TestRunDetails
-from .systems.slurm import SlurmSystem, SlurmSystemMetadata
-from .systems.slurm.slurm_metadata import SlurmJobMetadata
-
-GPU_HOURLY_COST_USD = {
-    "H100": 4.50,
-    "B200": 8.00,
-    "GB200": 10.00,
-    "GB300": 12.00,
-}
-
-
-def _safe_literal_eval(raw: Any, default: Any) -> Any:
-    if isinstance(raw, str):
-        with contextlib.suppress(SyntaxError, ValueError):
-            return ast.literal_eval(raw)
-    return default
-
-
-def _format_scalar(value: Any) -> str:
-    if isinstance(value, float):
-        return f"{value:.4f}".rstrip("0").rstrip(".")
-    return str(value)
-
-
-def _format_duration(seconds: float | None) -> str:
-    if seconds is None:
-        return "n/a"
-
-    seconds = max(float(seconds), 0.0)
-    if seconds < 60:
-        return f"{seconds:.1f}s"
-
-    minutes, sec = divmod(round(seconds), 60)
-    hours, minutes = divmod(minutes, 60)
-    parts = []
-    if hours:
-        parts.append(f"{hours}h")
-    if minutes:
-        parts.append(f"{minutes}m")
-    if sec or not parts:
-        parts.append(f"{sec}s")
-    return " ".join(parts)
-
-
-def _format_float(value: float | None, precision: int = 2) -> str:
-    if value is None:
-        return "n/a"
-    return f"{value:.{precision}f}"
-
-
-def _format_percent(value: float | None) -> str:
-    if value is None:
-        return "n/a"
-    return f"{value:.2f}%"
-
-
-def _format_money(value: float | None) -> str:
-    if value is None:
-        return "n/a"
-    return f"${value:,.2f}"
-
-
-def _normalize_gpu_family(gpu_name: str | None) -> str | None:
-    if not gpu_name:
-        return None
-
-    upper = gpu_name.upper()
-    for family in GPU_HOURLY_COST_USD:
-        if family in upper:
-            return family
-    return None
-
-
-def _build_running_best(points: list[tuple[int, float]]) -> list[tuple[int, float]]:
-    running_best: list[tuple[int, float]] = []
-    best = None
-    for step, reward in points:
-        best = reward if best is None else max(best, reward)
-        running_best.append((step, best))
-    return running_best
-
-
-def _chart_points(points: list[tuple[int, float]], width: int, height: int, padding: int) -> list[tuple[float, float]]:
-    if not points:
-        return []
-
-    x_vals = [step for step, _ in points]
-    y_vals = [reward for _, reward in points]
-    min_x, max_x = min(x_vals), max(x_vals)
-    min_y, max_y = min(y_vals), max(y_vals)
-
-    x_span = max(max_x - min_x, 1)
-    y_span = max(max_y - min_y, 1e-9)
-    inner_width = width - 2 * padding
-    inner_height = height - 2 * padding
-
-    result = []
-    for step, reward in points:
-        x = padding + ((step - min_x) / x_span) * inner_width
-        y = height - padding - ((reward - min_y) / y_span) * inner_height
-        result.append((x, y))
-    return result
-
-
-def _polyline(points: list[tuple[float, float]]) -> str:
-    return " ".join(f"{x:.2f},{y:.2f}" for x, y in points)
-
-
-def _build_reward_chart_svg(steps: list["DSEStepData"]) -> str | None:
-    if not steps:
-        return None
-
-    width, height, padding = 720, 260, 34
-    reward_points = [(step.step, step.reward) for step in steps]
-    running_best = _build_running_best(reward_points)
-    reward_coords = _chart_points(reward_points, width, height, padding)
-    best_coords = _chart_points(running_best, width, height, padding)
-
-    reward_line = _polyline(reward_coords)
-    best_line = _polyline(best_coords)
-    y_vals = [reward for _, reward in reward_points]
-    y_min, y_max = min(y_vals), max(y_vals)
-
-    circles = []
-    for step_data, (x, y) in zip(steps, reward_coords, strict=True):
-        tooltip = (
-            f"Step {step_data.step} | Reward: {_format_float(step_data.reward, 4)}"
-            f" | Observation: {step_data.observation_display}"
-        )
-        circles.append(f'<circle cx="{x:.2f}" cy="{y:.2f}" r="4" fill="#1f77b4"><title>{tooltip}</title></circle>')
-
-    return "\n".join(
-        [
-            f'<svg viewBox="0 0 {width} {height}" class="dse-chart" role="img" '
-            f'aria-label="Reward over DSE steps. Min reward {_format_float(y_min, 4)}, '
-            f'max reward {_format_float(y_max, 4)}.">',
-            f'<line x1="{padding}" y1="{height - padding}" x2="{width - padding}" y2="{height - padding}" '
-            'stroke="#94a3b8" stroke-width="1" />',
-            f'<line x1="{padding}" y1="{padding}" x2="{padding}" y2="{height - padding}" '
-            'stroke="#94a3b8" stroke-width="1" />',
-            f'<polyline fill="none" stroke="#1f77b4" stroke-width="2" points="{reward_line}" />',
-            f'<polyline fill="none" stroke="#ef4444" stroke-width="2" stroke-dasharray="6 4" points="{best_line}" />',
-            *circles,
-            f'<text x="{width / 2:.0f}" y="{height - 6}" text-anchor="middle" fill="#475569" '
-            'font-size="12">Step</text>',
-            f'<text x="16" y="{height / 2:.0f}" transform="rotate(-90 16 {height / 2:.0f})" '
-            'text-anchor="middle" fill="#475569" font-size="12">Reward</text>',
-            "</svg>",
-        ]
-    )
-
-
-@dataclass
-class ReportItem:
-    """Basic report item for general systems."""
-
-    name: str
-    description: str
-    logs_path: Optional[str] = None
-
-    @classmethod
-    def from_test_runs(cls, test_runs: list[TestRun], results_root: Path) -> list["ReportItem"]:
-        report_items: list[ReportItem] = []
-        for tr in test_runs:
-            report_items.append(ReportItem(case_name(tr), tr.test.description))
-            if tr.output_path.exists():
-                report_items[-1].logs_path = f"./{tr.output_path.relative_to(results_root)}"
-        return report_items
-
-
-@dataclass
-class SlurmReportItem:
-    """Enhanced report item for Slurm systems with node information."""
-
-    name: str
-    description: str
-    logs_path: Optional[str] = None
-    nodes: Optional[str] = None
-
-    @classmethod
-    def get_metadata(cls, run_dir: Path, results_root: Path) -> Optional[SlurmSystemMetadata]:
-        metadata_path = run_dir / "metadata"
-        if not metadata_path.exists():
-            logging.debug(f"No metadata folder found in {run_dir=}")
-            if not (results_root / "metadata").exists():
-                logging.debug(f"No metadata folder found in {results_root=}")
-                return None
-            else:  # single-sbatch case
-                metadata_path = results_root / "metadata"
-
-        node_files = list(metadata_path.glob("node-*.toml"))
-        if not node_files:
-            logging.debug(f"No node files found in {metadata_path}")
-            return None
-
-        node_file = node_files[0]
-        with node_file.open() as f:
-            try:
-                return SlurmSystemMetadata.model_validate(toml.load(f))
-            except Exception as e:
-                logging.debug(f"Error validating metadata for {node_file}: {e}")
-
-        return None
-
-    @classmethod
-    def from_test_runs(cls, test_runs: list[TestRun], results_root: Path) -> list["SlurmReportItem"]:
-        report_items: list[SlurmReportItem] = []
-        for tr in test_runs:
-            ri = SlurmReportItem(case_name(tr), tr.test.description)
-            if tr.output_path.exists():
-                ri.logs_path = f"./{tr.output_path.relative_to(results_root)}"
-            if metadata := cls.get_metadata(tr.output_path, results_root):
-                ri.nodes = metadata.slurm.node_list
-            report_items.append(ri)
-
-        return report_items
-
-
-@dataclass
-class DSEStepData:
-    """DSE step data."""
-
-    step: int
-    reward: float
-    observation: list[Any]
-    observation_display: str
-    action: dict[str, Any]
-    elapsed_time_sec: float | None = None
-    is_successful: bool = False
-
-
-@dataclass
-class DSEParameterRow:
-    """DSE parameter row."""
-
-    name: str
-    values: list[str]
-    best_value: str
-
-
-@dataclass
-class DSESummary:
-    """DSE summary report."""
-
-    name: str
-    description: str
-    iteration: int
-    output_root: Path
-    output_root_rel_path: str
-    total_space: int
-    executed_steps: int
-    skipped_steps: int
-    coverage_percent: float | None
-    best_step: int | None
-    best_reward: float | None
-    best_observation_display: str
-    avg_step_duration_sec: float | None
-    total_runtime_sec: float | None
-    projected_runtime_sec: float | None
-    saved_runtime_sec: float | None
-    success_count: int
-    failure_count: int
-    gpu_arch_label: str | None
-    gpu_arch_family: str | None
-    gpus_per_node: int | None
-    num_nodes: int | None
-    total_gpu_hours: float | None
-    projected_gpu_hours: float | None
-    saved_gpu_hours: float | None
-    estimated_saved_cost_usd: float | None
-    best_config_rel_path: str | None
-    best_scenario_rel_path: str | None
-    best_scenario_toml: str | None
-    analysis_rel_path: str | None
-    parameter_rows: list[DSEParameterRow] = field(default_factory=list)
-    chart_svg: str | None = None
-
-    @property
-    def display_name(self) -> str:
-        if self.iteration == 0:
-            return self.name
-        return f"{self.name} iter={self.iteration}"
-
-    @property
-    def status_text(self) -> str:
-        if self.failure_count == 0:
-            return "PASSED"
-        if self.success_count == 0:
-            return "FAILED"
-        return "PARTIAL"
-
-    @property
-    def status_style(self) -> str:
-        return {
-            "PASSED": "[green]PASSED[/green]",
-            "FAILED": "[red]FAILED[/red]",
-            "PARTIAL": "[yellow]PARTIAL[/yellow]",
-        }[self.status_text]
+from cloudai.core import Reporter, TestRun
+from cloudai.report_generator.status_report import (
+    DSEReportBuilder,
+    DSESummary,
+    ReportItem,
+    format_duration,
+    format_float,
+    format_money,
+    format_percent,
+)
 
 
 class PerTestReporter(Reporter):
@@ -358,50 +61,32 @@ def generate(self) -> None:
 class StatusReporter(Reporter):
     """Generates HTML status reports with system-specific templates."""
 
-    def __init__(self, system, test_scenario, results_root, config):
-        super().__init__(system, test_scenario, results_root, config)
-        self.dse_summaries: list[DSESummary] = []
-
     @property
-    def template_file_path(self) -> Path:
+    def templates_dir(self) -> Path:
         return Path(__file__).parent / "util"
 
-    @property
-    def template_file(self) -> str:
-        if isinstance(self.system, SlurmSystem):
-            return "general-slurm-report.jinja2"
-        return "general-report.jinja2"
-
-    def best_dse_config_file_name(self, tr: TestRun) -> str:
-        return f"{tr.name}.toml"
-
-    def best_dse_scenario_file_name(self, tr: TestRun) -> str:
-        return f"{tr.name}-best-in-scenario.toml"
-
     def generate(self) -> None:
         self.load_test_runs()
-        self.report_best_dse_config()
-        self.generate_scenario_report()
-        self.print_summary()
 
-    def generate_scenario_report(self) -> None:
-        template = jinja2.Environment(loader=jinja2.FileSystemLoader(self.template_file_path)).get_template(
-            self.template_file
-        )
+        dse_builder = DSEReportBuilder(self.system, self.results_root, self.trs)
+        dse_summaries = dse_builder.build(self.test_scenario.test_runs)
 
-        report_items = (
-            SlurmReportItem.from_test_runs(self.trs, self.results_root)
-            if isinstance(self.system, SlurmSystem)
-            else ReportItem.from_test_runs(self.trs, self.results_root)
-        )
+        self.to_html(dse_summaries)
+        self.to_console(dse_summaries)
+
+    def to_html(self, dse_summaries: list[DSESummary]) -> None:
+        jinja_env = jinja2.Environment(loader=jinja2.FileSystemLoader(self.templates_dir))
+        template = jinja_env.get_template("general-report.jinja2")
+
+        report_items = ReportItem.from_test_runs(self.trs, self.results_root)
         report = template.render(
             name=self.test_scenario.name,
             report_items=report_items,
-            dse_summaries=self.dse_summaries,
-            format_duration=_format_duration,
-            format_float=_format_float,
-            format_percent=_format_percent,
-            format_money=_format_money,
+            dse_summaries=dse_summaries,
+            format_duration=format_duration,
+            format_float=format_float,
+            format_percent=format_percent,
+            format_money=format_money,
         )
         report_path = self.results_root / f"{self.test_scenario.name}.html"
         with report_path.open("w") as f:
@@ -409,242 +94,7 @@ def generate_scenario_report(self) -> None:
 
         logging.info(f"Generated scenario report at {report_path}")
 
-    def report_best_dse_config(self):
-        self.dse_summaries = []
-        for tr in self.test_scenario.test_runs:
-            if not tr.is_dse_job:
-                continue
-
-            self.dse_summaries.extend(self._build_dse_summaries(tr))
-
-    def _build_dse_summaries(self, original_tr: TestRun) -> list[DSESummary]:
-        summaries: list[DSESummary] = []
-        tr_base_dir = self.results_root / original_tr.name
-        if not tr_base_dir.exists():
-            return summaries
-
-        grouped_trs: dict[int, list[TestRun]] = {}
-        for tr in self.trs:
-            if tr.name != original_tr.name:
-                continue
-            grouped_trs.setdefault(tr.current_iteration, []).append(tr)
-        iteration_dirs = sorted((d for d in tr_base_dir.iterdir() if d.is_dir()), key=lambda p: int(p.name))
-        for iter_dir in iteration_dirs:
-            iteration = int(iter_dir.name)
-            summary = self._build_dse_summary_for_iteration(
-                original_tr, iteration, iter_dir, grouped_trs.get(iteration, [])
-            )
-            if summary is not None:
-                summaries.append(summary)
-        return summaries
-
-    def _build_dse_summary_for_iteration(
-        self, original_tr: TestRun, iteration: int, iter_dir: Path, step_trs: list[TestRun]
-    ) -> DSESummary | None:
-        trajectory_file = iter_dir / "trajectory.csv"
-        if not trajectory_file.exists():
-            logging.warning(f"No trajectory file found for {original_tr.name} at {trajectory_file}")
-            return None
-
-        df = lazy.pd.read_csv(trajectory_file)
-        if df.empty:
-            return None
-
-        steps_by_number = {tr.step: tr for tr in step_trs}
-        steps: list[DSEStepData] = []
-        for row in df.to_dict(orient="records"):
-            step_no = int(row["step"])
-            action = _safe_literal_eval(row.get("action"), {})
-            if not isinstance(action, dict):
-                action = {}
-            observation = _safe_literal_eval(row.get("observation"), [])
-            if not isinstance(observation, list):
-                observation = [observation]
-            elapsed_time = self._step_elapsed_time(iter_dir / str(step_no))
-            tr = steps_by_number.get(step_no)
-            is_successful = tr.test.was_run_successful(tr).is_successful if tr is not None else False
-            steps.append(
-                DSEStepData(
-                    step=step_no,
-                    reward=float(row["reward"]),
-                    observation=observation,
-                    observation_display=", ".join(_format_scalar(v) for v in observation) if observation else "n/a",
-                    action=action,
-                    elapsed_time_sec=elapsed_time,
-                    is_successful=is_successful,
-                )
-            )
-
-        if not steps:
-            return None
-
-        steps.sort(key=lambda step: step.step)
-        best_step_data = max(steps, key=lambda step: step.reward)
-        best_step_dir = iter_dir / str(best_step_data.step)
-        best_step_details = best_step_dir / CommandGenStrategy.TEST_RUN_DUMP_FILE_NAME
-        if not best_step_details.exists():
-            logging.warning(f"No test run dump found for best DSE step at {best_step_details}")
-            return None
-
-        with best_step_details.open() as f:
-            trd = TestRunDetails.model_validate(toml.load(f))
-
-        best_config_path = iter_dir / self.best_dse_config_file_name(original_tr)
-        logging.info(f"Writing best config for {original_tr.name} to {best_config_path}")
-        with best_config_path.open("w") as f:
-            toml.dump(trd.test_definition.model_dump(), f)
-
-        best_scenario_content = self._build_best_scenario_toml(original_tr, trd)
-        best_scenario_path = iter_dir / self.best_dse_scenario_file_name(original_tr)
-        with best_scenario_path.open("w") as f:
-            f.write(best_scenario_content)
-
-        elapsed_times = [step.elapsed_time_sec for step in steps if step.elapsed_time_sec is not None]
-        avg_step_duration_sec = sum(elapsed_times) / len(elapsed_times) if elapsed_times else None
-        total_runtime_sec = sum(elapsed_times) if elapsed_times else None
-        total_space = len(original_tr.all_combinations)
-        executed_steps = len(steps)
-        skipped_steps = max(total_space - executed_steps, 0)
-        coverage_percent = (executed_steps / total_space * 100.0) if total_space else None
-        projected_runtime_sec = avg_step_duration_sec * total_space if avg_step_duration_sec is not None else None
-        saved_runtime_sec = (
-            max(projected_runtime_sec - total_runtime_sec, 0.0)
-            if projected_runtime_sec is not None and total_runtime_sec is not None
-            else None
-        )
-
-        metadata = self._best_available_metadata(iter_dir, best_step_data.step)
-        gpu_arch_label = metadata.system.gpu_arch_type if metadata else None
-        gpu_arch_family = _normalize_gpu_family(gpu_arch_label)
-        num_nodes = trd.nnodes
-        gpus_per_node = getattr(self.system, "gpus_per_node", None)
-        total_gpu_hours = (
-            (total_runtime_sec / 3600.0) * num_nodes * gpus_per_node
-            if total_runtime_sec is not None and gpus_per_node is not None
-            else None
-        )
-        projected_gpu_hours = (
-            (projected_runtime_sec / 3600.0) * num_nodes * gpus_per_node
-            if projected_runtime_sec is not None and gpus_per_node is not None
-            else None
-        )
-        saved_gpu_hours = (
-            max(projected_gpu_hours - total_gpu_hours, 0.0)
-            if projected_gpu_hours is not None and total_gpu_hours is not None
-            else None
-        )
-        estimated_saved_cost_usd = (
-            saved_gpu_hours * GPU_HOURLY_COST_USD[gpu_arch_family]
-            if saved_gpu_hours is not None and gpu_arch_family in GPU_HOURLY_COST_USD
-            else None
-        )
-
-        success_count = sum(1 for step in steps if step.is_successful)
-        failure_count = len(steps) - success_count
-        best_action = best_step_data.action
-        parameter_rows = [
-            DSEParameterRow(
-                name=name,
-                values=[_format_scalar(value) for value in values],
-                best_value=_format_scalar(best_action.get(name, "n/a")),
-            )
-            for name, values in original_tr.param_space.items()
-        ]
-        analysis_file = iter_dir / "analysis.csv"
-
-        return DSESummary(
-            name=original_tr.name,
-            description=original_tr.test.description,
-            iteration=iteration,
-            output_root=iter_dir,
-            output_root_rel_path=f"./{iter_dir.relative_to(self.results_root)}",
-            total_space=total_space,
-            executed_steps=executed_steps,
-            skipped_steps=skipped_steps,
-            coverage_percent=coverage_percent,
-            best_step=best_step_data.step,
-            best_reward=best_step_data.reward,
-            best_observation_display=best_step_data.observation_display,
-            avg_step_duration_sec=avg_step_duration_sec,
-            total_runtime_sec=total_runtime_sec,
-            projected_runtime_sec=projected_runtime_sec,
-            saved_runtime_sec=saved_runtime_sec,
-            success_count=success_count,
-            failure_count=failure_count,
-            gpu_arch_label=gpu_arch_label,
-            gpu_arch_family=gpu_arch_family,
-            gpus_per_node=gpus_per_node,
-            num_nodes=num_nodes,
-            total_gpu_hours=total_gpu_hours,
-            projected_gpu_hours=projected_gpu_hours,
-            saved_gpu_hours=saved_gpu_hours,
-            estimated_saved_cost_usd=estimated_saved_cost_usd,
-            best_config_rel_path=f"./{best_config_path.relative_to(self.results_root)}",
-            best_scenario_rel_path=f"./{best_scenario_path.relative_to(self.results_root)}",
-            best_scenario_toml=best_scenario_content,
-            analysis_rel_path=f"./{analysis_file.relative_to(self.results_root)}" if analysis_file.exists() else None,
-            parameter_rows=parameter_rows,
-            chart_svg=_build_reward_chart_svg(steps),
-        )
-
-    def _build_best_scenario_toml(self, original_tr: TestRun, best_trd: TestRunDetails) -> str:
-        tdef = best_trd.test_definition.model_copy(deep=True)
-        tdef.agent = None
-        tdef.agent_steps = None
-        tdef.agent_reward_function = None
-        tdef.agent_config = None
-        tdef.agent_metrics = ["default"]
-
-        test_block: dict[str, Any] = {
-            "id": original_tr.name,
-            "num_nodes": best_trd.nnodes,
-            "name": tdef.name,
-            "description": tdef.description,
-            "test_template_name": tdef.test_template_name,
-            "cmd_args": tdef.cmd_args.model_dump(by_alias=True),
-        }
-        if original_tr.time_limit:
-            test_block["time_limit"] = original_tr.time_limit
-        if original_tr.nodes:
-            test_block["nodes"] = original_tr.nodes
-        if original_tr.exclude_nodes:
-            test_block["exclude_nodes"] = original_tr.exclude_nodes
-        if tdef.extra_env_vars:
-            test_block["extra_env_vars"] = tdef.extra_env_vars
-        if tdef.extra_container_mounts:
-            test_block["extra_container_mounts"] = tdef.extra_container_mounts
-        if tdef.git_repos:
-            test_block["git_repos"] = [repo.model_dump() for repo in tdef.git_repos]
-        if tdef.nsys:
-            test_block["nsys"] = tdef.nsys.model_dump(exclude_unset=True)
-        if original_tr.extra_srun_args:
-            test_block["extra_srun_args"] = original_tr.extra_srun_args
-
-        scenario_dict = {
-            "name": f"{best_trd.test_definition.name}_best_config",
-            "Tests": [test_block],
-        }
-        buffer = io.StringIO()
-        toml.dump(scenario_dict, buffer)
-        return buffer.getvalue()
-
-    @staticmethod
-    def _step_elapsed_time(step_dir: Path) -> float | None:
-        slurm_job_path = step_dir / "slurm-job.toml"
-        if not slurm_job_path.exists():
-            return None
-
-        with slurm_job_path.open() as f:
-            metadata = SlurmJobMetadata.model_validate(toml.load(f))
-        return float(metadata.elapsed_time_sec)
-
-    def _best_available_metadata(self, iter_dir: Path, best_step: int) -> SlurmSystemMetadata | None:
-        if not isinstance(self.system, SlurmSystem):
-            return None
-        best_step_dir = iter_dir / str(best_step)
-        return SlurmReportItem.get_metadata(best_step_dir, self.results_root)
-
-    def print_summary(self) -> None:
+    def to_console(self, dse_summaries: list[DSESummary]):
         if not self.trs:
             logging.debug("No test runs found, skipping summary.")
             return
@@ -653,34 +103,40 @@ def print_summary(self) -> None:
         for col in ["Case", "Status", "Details"]:
             table.add_column(col, overflow="fold")
 
-        if self.dse_summaries:
-            for summary in self.dse_summaries:
-                details = [
-                    f"steps={summary.executed_steps}/{summary.total_space}",
-                    f"best_step={summary.best_step}",
-                    f"best_reward={_format_float(summary.best_reward, 4)}",
-                    f"failures={summary.failure_count}",
-                ]
-                if summary.best_scenario_rel_path:
-                    details.append(summary.best_scenario_rel_path)
-                table.add_row(summary.display_name, f"[bold]{summary.status_style}[/bold]", "\n".join(details))
+        if dse_summaries:
+            self._add_dse_rows(dse_summaries, table)
         else:
-            for tr in self.trs:
-                tr_status = tr.test.was_run_successful(tr)
-                sts_text = f"[bold]{'[green]PASSED[/green]' if tr_status.is_successful else '[red]FAILED[/red]'}[/bold]"
-                display_path = str(tr.output_path.absolute())
-                with contextlib.suppress(ValueError):
-                    display_path = str(tr.output_path.absolute().relative_to(Path.cwd()))
-                details_text = f"\n{tr_status.error_message}" if tr_status.error_message else ""
-                columns = [tr.name, sts_text, f"{display_path}{details_text}"]
-                table.add_row(*columns)
+            self._add_standard_rows(table)
 
         console = Console()
         with console.capture() as capture:
-            console.print(table)  # doesn't print to stdout, captures only
+            console.print(table)
 
         logging.info(capture.get())
 
+    @staticmethod
+    def _add_dse_rows(dse_summaries: list[DSESummary], table: Table):
+        for summary in dse_summaries:
+            details = [
+                f"steps={summary.executed_steps}/{summary.total_space}",
+                f"best_step={summary.best_step}",
+                f"best_reward={format_float(summary.best_reward, 4)}",
+                f"failures={summary.failure_count}",
+            ]
+            if summary.best_config_rel_path:
+                details.append(summary.best_config_rel_path)
+            table.add_row(summary.display_name, f"[bold]{summary.status_style}[/bold]", "\n".join(details))
+
+    def _add_standard_rows(self, table: Table):
+        for tr in self.trs:
+            tr_status = tr.test.was_run_successful(tr)
+            sts_text = f"[bold]{'[green]PASSED[/green]' if tr_status.is_successful else '[red]FAILED[/red]'}[/bold]"
+            display_path = str(tr.output_path.absolute())
+            with contextlib.suppress(ValueError):
+                display_path = str(tr.output_path.absolute().relative_to(Path.cwd()))
+            details_text = f"\n{tr_status.error_message}" if tr_status.error_message else ""
+            table.add_row(tr.name, sts_text, f"{display_path}{details_text}")
+
 
 class TarballReporter(Reporter):
     """Creates tarballs of results for failed test runs."""
diff --git a/src/cloudai/util/general-report.jinja2 b/src/cloudai/util/general-report.jinja2
index 13585812c..55d3396d9 100644
--- a/src/cloudai/util/general-report.jinja2
+++ b/src/cloudai/util/general-report.jinja2
@@ -170,13 +170,12 @@
                     </div>
                     <div class="best-link-list" style="margin-top: 1rem;">
                         {% if summary.best_config_rel_path %}<a href="{{ summary.best_config_rel_path }}">Best Test TOML</a>{% endif %}
-                        {% if summary.best_scenario_rel_path %}<a href="{{ summary.best_scenario_rel_path }}">Best Scenario TOML</a>{% endif %}
                         {% if summary.analysis_rel_path %}<a href="{{ summary.analysis_rel_path }}">BO Analysis</a>{% endif %}
                     </div>
-                    {% if summary.best_scenario_toml %}
+                    {% if summary.best_config_toml %}
                     <details class="best-config-preview">
-                        <summary>Show best scenario TOML</summary>
-                        <pre>{{ summary.best_scenario_toml }}</pre>
+                        <summary>Show best config TOML</summary>
+                        <pre>{{ summary.best_config_toml }}</pre>
                     </details>
                     {% endif %}
                 </div>
@@ -219,6 +218,9 @@
         <th>Test</th>
         <th>Description</th>
         <th>Results</th>
+        {% if report_items | selectattr('nodes') | first is not none %}
+          <th>Nodes</th>
+        {% endif %}
     </tr>
     {% for item in report_items %}
     <tr>
@@ -229,6 +231,11 @@
         {% else %}
             <td>no logs</td>
         {% endif %}
+        {% if item.nodes is not none %}
+            <td>{{ item.nodes }}</td>
+        {% else %}
+            <td>no nodes information</td>
+        {% endif %}
     </tr>
     {% endfor %}
 </table>
diff --git a/src/cloudai/util/general-slurm-report.jinja2 b/src/cloudai/util/general-slurm-report.jinja2
deleted file mode 100644
index 9298be928..000000000
--- a/src/cloudai/util/general-slurm-report.jinja2
+++ /dev/null
@@ -1,238 +0,0 @@
-{% extends "base-report.jinja2" %}
-
-{% block extra_head %}
-<style>
-    .dse-summary {
-        margin: 2rem 0 3rem;
-        padding: 1.5rem;
-        border: 1px solid #e2e8f0;
-        border-radius: 16px;
-        background: linear-gradient(180deg, #ffffff 0%, #f8fbff 100%);
-        box-shadow: 0 8px 24px rgba(15, 23, 42, 0.05);
-    }
-    .metrics-grid {
-        display: grid;
-        grid-template-columns: repeat(auto-fit, minmax(160px, 1fr));
-        gap: 12px;
-        margin: 1rem 0 1.5rem;
-    }
-    .metric-card {
-        background: #fff;
-        border: 1px solid #dbe5f0;
-        border-radius: 12px;
-        padding: 0.9rem 1rem;
-    }
-    .metric-label {
-        color: #64748b;
-        font-size: 0.85rem;
-        margin-bottom: 0.25rem;
-    }
-    .metric-value {
-        color: #0f172a;
-        font-size: 1.3rem;
-        font-weight: 700;
-    }
-    .dse-section-grid {
-        display: grid;
-        grid-template-columns: 1.2fr 1fr;
-        gap: 18px;
-        align-items: start;
-    }
-    .dse-box {
-        background: #fff;
-        border: 1px solid #dbe5f0;
-        border-radius: 12px;
-        padding: 1rem;
-        margin-top: 1rem;
-    }
-    .context-list {
-        display: grid;
-        grid-template-columns: repeat(auto-fit, minmax(180px, 1fr));
-        gap: 8px 16px;
-        margin: 0.75rem 0 0;
-    }
-    .context-list div {
-        font-size: 0.95rem;
-    }
-    .label {
-        color: #64748b;
-        display: block;
-        font-size: 0.82rem;
-    }
-    .value {
-        color: #0f172a;
-        font-weight: 600;
-    }
-    .best-link-list a {
-        margin-right: 1rem;
-        font-weight: 600;
-    }
-    .best-config-preview {
-        margin-top: 1rem;
-    }
-    .best-config-preview pre {
-        max-height: 320px;
-        overflow: auto;
-        padding: 1rem;
-        border-radius: 12px;
-        background: #0f172a;
-        color: #e2e8f0;
-    }
-    .best-value {
-        display: inline-block;
-        padding: 0.2rem 0.5rem;
-        border-radius: 999px;
-        background: #dbeafe;
-        color: #1d4ed8;
-        font-weight: 700;
-    }
-    .small-note {
-        color: #64748b;
-        font-size: 0.9rem;
-    }
-    .dse-chart {
-        width: 100%;
-        height: auto;
-        background: linear-gradient(180deg, #ffffff 0%, #f8fafc 100%);
-        border-radius: 12px;
-        border: 1px solid #dbe5f0;
-    }
-    @media (max-width: 900px) {
-        .dse-section-grid {
-            grid-template-columns: 1fr;
-        }
-    }
-</style>
-{% endblock %}
-
-{% block content %}
-{% if dse_summaries %}
-    {% for summary in dse_summaries %}
-    <section class="dse-summary">
-        <h2>{{ summary.display_name }}</h2>
-        <p>{{ summary.description }}</p>
-
-        <div class="metrics-grid">
-            <div class="metric-card">
-                <div class="metric-label">Space</div>
-                <div class="metric-value">{{ summary.total_space }}</div>
-            </div>
-            <div class="metric-card">
-                <div class="metric-label">Ran</div>
-                <div class="metric-value">{{ summary.executed_steps }}</div>
-            </div>
-            <div class="metric-card">
-                <div class="metric-label">Skipped</div>
-                <div class="metric-value">{{ summary.skipped_steps }}</div>
-            </div>
-            <div class="metric-card">
-                <div class="metric-label">Coverage</div>
-                <div class="metric-value">{{ format_percent(summary.coverage_percent) }}</div>
-            </div>
-            <div class="metric-card">
-                <div class="metric-label">Saved Time</div>
-                <div class="metric-value">{{ format_duration(summary.saved_runtime_sec) }}</div>
-            </div>
-            <div class="metric-card">
-                <div class="metric-label">Saved GPU-Hours</div>
-                <div class="metric-value">{{ format_float(summary.saved_gpu_hours, 2) }}</div>
-            </div>
-            <div class="metric-card">
-                <div class="metric-label">Estimated $ Saved</div>
-                <div class="metric-value">{{ format_money(summary.estimated_saved_cost_usd) }}</div>
-            </div>
-        </div>
-
-        <div class="dse-box">
-            <h3>Execution Context</h3>
-            <div class="context-list">
-                <div><span class="label">Status</span><span class="value">{{ summary.status_text }}</span></div>
-                <div><span class="label">GPU Family</span><span class="value">{{ summary.gpu_arch_family or "unknown" }}</span></div>
-                <div><span class="label">GPU Label</span><span class="value">{{ summary.gpu_arch_label or "unknown" }}</span></div>
-                <div><span class="label">GPUs Per Node</span><span class="value">{{ summary.gpus_per_node or "unknown" }}</span></div>
-                <div><span class="label">Nodes</span><span class="value">{{ summary.num_nodes or "unknown" }}</span></div>
-                <div><span class="label">Step Success/Failure</span><span class="value">{{ summary.success_count }}/{{ summary.failure_count }}</span></div>
-                <div><span class="label">Average Step Runtime</span><span class="value">{{ format_duration(summary.avg_step_duration_sec) }}</span></div>
-                <div><span class="label">Observed Runtime</span><span class="value">{{ format_duration(summary.total_runtime_sec) }}</span></div>
-                <div><span class="label">Projected Full-Space Runtime</span><span class="value">{{ format_duration(summary.projected_runtime_sec) }}</span></div>
-            </div>
-        </div>
-
-        <div class="dse-section-grid">
-            <div>
-                <div class="dse-box">
-                    <h3>Best Step</h3>
-                    <div class="context-list">
-                        <div><span class="label">Best Step</span><span class="value">{{ summary.best_step }}</span></div>
-                        <div><span class="label">Best Reward</span><span class="value">{{ format_float(summary.best_reward, 4) }}</span></div>
-                        <div><span class="label">Best Observation</span><span class="value">{{ summary.best_observation_display }}</span></div>
-                        <div><span class="label">Run Folder</span><span class="value"><a href="{{ summary.output_root_rel_path }}">open</a></span></div>
-                    </div>
-                    <div class="best-link-list" style="margin-top: 1rem;">
-                        {% if summary.best_config_rel_path %}<a href="{{ summary.best_config_rel_path }}">Best Test TOML</a>{% endif %}
-                        {% if summary.best_scenario_rel_path %}<a href="{{ summary.best_scenario_rel_path }}">Best Scenario TOML</a>{% endif %}
-                        {% if summary.analysis_rel_path %}<a href="{{ summary.analysis_rel_path }}">BO Analysis</a>{% endif %}
-                    </div>
-                    {% if summary.best_scenario_toml %}
-                    <details class="best-config-preview">
-                        <summary>Show best scenario TOML</summary>
-                        <pre>{{ summary.best_scenario_toml }}</pre>
-                    </details>
-                    {% endif %}
-                </div>
-
-                <div class="dse-box">
-                    <h3>Exploration Space</h3>
-                    <p class="small-note">Each row shows the allowed values for a swept parameter and the selected best value.</p>
-                    <table>
-                        <tr>
-                            <th>Parameter</th>
-                            <th>Allowed Values</th>
-                            <th>Best</th>
-                        </tr>
-                        {% for row in summary.parameter_rows %}
-                        <tr>
-                            <td>{{ row.name }}</td>
-                            <td>{{ row.values | join(", ") }}</td>
-                            <td><span class="best-value">{{ row.best_value }}</span></td>
-                        </tr>
-                        {% endfor %}
-                    </table>
-                </div>
-            </div>
-
-            <div class="dse-box">
-                <h3>Reward Over Steps</h3>
-                <p class="small-note">Blue shows observed reward per trial. Red dashed shows the best-so-far curve.</p>
-                {% if summary.chart_svg %}
-                    {{ summary.chart_svg | safe }}
-                {% else %}
-                    <p>No reward data available.</p>
-                {% endif %}
-            </div>
-        </div>
-    </section>
-    {% endfor %}
-{% else %}
-<table>
-    <tr>
-        <th>Test</th>
-        <th>Description</th>
-        <th>Results</th>
-        <th>Nodes</th>
-    </tr>
-    {% for item in report_items %}
-    <tr>
-        <td>{{ item.name }}</td>
-        <td>{{ item.description }}</td>
-        {% if item.logs_path %}
-            <td><a href="{{ item.logs_path }}">logs</a></td>
-        {% else %}
-            <td>no logs</td>
-        {% endif %}
-        <td>{{ item.nodes }}</td>
-    </tr>
-    {% endfor %}
-</table>
-{% endif %}
-{% endblock %}
diff --git a/tests/test_reporter.py b/tests/test_reporter.py
index 50d815b3c..71511fab9 100644
--- a/tests/test_reporter.py
+++ b/tests/test_reporter.py
@@ -26,7 +26,8 @@
 from cloudai.cli.handlers import generate_reports
 from cloudai.core import CommandGenStrategy, Registry, Reporter, System
 from cloudai.models.scenario import ReportConfig, TestRunDetails
-from cloudai.reporter import PerTestReporter, SlurmReportItem, StatusReporter, TarballReporter
+from cloudai.report_generator.status_report import DSEReportBuilder, ReportItem, load_system_metadata
+from cloudai.reporter import PerTestReporter, StatusReporter, TarballReporter
 from cloudai.systems.slurm.slurm_metadata import (
     MetadataCUDA,
     MetadataMPI,
@@ -132,6 +133,22 @@ def _create_dse_report_fixture(
     return tr
 
 
+def _build_dse_summaries(
+    slurm_system: SlurmSystem,
+    dse_tr: TestRun,
+    scenario_name: str = "dse_scenario",
+) -> tuple[StatusReporter, list]:
+    reporter = StatusReporter(
+        slurm_system,
+        TestScenario(name=scenario_name, test_runs=[dse_tr]),
+        slurm_system.output_path,
+        ReportConfig(),
+    )
+    reporter.load_test_runs()
+    summaries = DSEReportBuilder(slurm_system, slurm_system.output_path, reporter.trs).build([dse_tr])
+    return reporter, summaries
+
+
 class TestLoadTestTuns:
     def test_load_test_runs_behcnmark_sorted(self, slurm_system: SlurmSystem, benchmark_tr: TestRun) -> None:
         reporter = PerTestReporter(
@@ -185,12 +202,13 @@ def test_create_tarball_preserves_full_name(tmp_path: Path, slurm_system: SlurmS
 
 
 def test_best_dse_config(dse_tr: TestRun, slurm_system: SlurmSystem) -> None:
-    reporter = StatusReporter(
-        slurm_system, TestScenario(name="test_scenario", test_runs=[dse_tr]), slurm_system.output_path, ReportConfig()
-    )
-    reporter.report_best_dse_config()
+    reporter, summaries = _build_dse_summaries(slurm_system, dse_tr, scenario_name="test_scenario")
+    assert len(summaries) == dse_tr.iterations
     best_config_path = (
-        reporter.results_root / dse_tr.name / f"{dse_tr.current_iteration}" / reporter.best_dse_config_file_name(dse_tr)
+        reporter.results_root
+        / dse_tr.name
+        / f"{dse_tr.current_iteration}"
+        / DSEReportBuilder.best_config_file_name(dse_tr)
     )
     assert best_config_path.exists()
     nccl = NCCLTestDefinition.model_validate(toml.load(best_config_path))
@@ -209,7 +227,7 @@ def test_template_file_path(system: System) -> None:
     reporter = StatusReporter(
         system, TestScenario(name="test_scenario", test_runs=[]), system.output_path, ReportConfig()
     )
-    assert (reporter.template_file_path / reporter.template_file).exists()
+    assert (reporter.templates_dir / "general-report.jinja2").exists()
 
 
 MY_REPORT_CALLED = 0
@@ -353,19 +371,19 @@ def slurm_metadata() -> SlurmSystemMetadata:
     )
 
 
-class TestSlurmReportItem:
+class TestLoadSystemMetadata:
     def test_no_metadata_folder(self, slurm_system: SlurmSystem) -> None:
         run_dir = slurm_system.output_path / "run_dir"
         run_dir.mkdir(parents=True, exist_ok=True)
 
-        meta = SlurmReportItem.get_metadata(run_dir, slurm_system.output_path)
+        meta = load_system_metadata(run_dir, slurm_system.output_path)
         assert meta is None
 
     def test_no_metadata_files(self, slurm_system: SlurmSystem) -> None:
         run_dir = slurm_system.output_path / "run_dir"
         (run_dir / "metadata").mkdir(parents=True, exist_ok=True)
 
-        meta = SlurmReportItem.get_metadata(run_dir, slurm_system.output_path)
+        meta = load_system_metadata(run_dir, slurm_system.output_path)
         assert meta is None
 
     def test_metadata_file_in_run_dir(self, slurm_system: SlurmSystem, slurm_metadata: SlurmSystemMetadata) -> None:
@@ -374,7 +392,7 @@ def test_metadata_file_in_run_dir(self, slurm_system: SlurmSystem, slurm_metadat
         with open(run_dir / "metadata" / "node-0.toml", "w") as f:
             toml.dump(slurm_metadata.model_dump(), f)
 
-        meta = SlurmReportItem.get_metadata(run_dir, slurm_system.output_path)
+        meta = load_system_metadata(run_dir, slurm_system.output_path)
         assert meta is not None
         assert meta.slurm.node_list == slurm_metadata.slurm.node_list
 
@@ -385,11 +403,29 @@ def test_metadata_for_single_sbatch(self, slurm_system: SlurmSystem, slurm_metad
         with open(slurm_system.output_path / "metadata" / "node-0.toml", "w") as f:
             toml.dump(slurm_metadata.model_dump(), f)
 
-        meta = SlurmReportItem.get_metadata(run_dir, slurm_system.output_path)
+        meta = load_system_metadata(run_dir, slurm_system.output_path)
         assert meta is not None
         assert meta.slurm.node_list == slurm_metadata.slurm.node_list
 
 
+def test_report_item_from_test_runs_includes_logs_and_metadata(
+    slurm_system: SlurmSystem, benchmark_tr: TestRun, slurm_metadata: SlurmSystemMetadata
+) -> None:
+    run_dir = slurm_system.output_path / benchmark_tr.name / "0"
+    metadata_dir = run_dir / "metadata"
+    metadata_dir.mkdir(parents=True, exist_ok=True)
+    with open(metadata_dir / "node-0.toml", "w") as f:
+        toml.dump(slurm_metadata.model_dump(), f)
+
+    benchmark_tr.output_path = run_dir
+    items = ReportItem.from_test_runs([benchmark_tr], slurm_system.output_path)
+
+    assert len(items) == 1
+    assert items[0].logs_path == f"./{benchmark_tr.name}/0"
+    assert items[0].nodes is not None
+    assert items[0].nodes.slurm.node_list == slurm_metadata.slurm.node_list
+
+
 def test_report_order() -> None:
     reports = Registry().ordered_scenario_reports()
     assert reports[0][0] == "per_test"
@@ -397,22 +433,12 @@ def test_report_order() -> None:
     assert reports[-1][0] == "tarball"
 
 
-def test_dse_summary_and_best_scenario_artifacts(
-    slurm_system: SlurmSystem, slurm_metadata: SlurmSystemMetadata
-) -> None:
+def test_dse_summary_and_best_config_artifacts(slurm_system: SlurmSystem, slurm_metadata: SlurmSystemMetadata) -> None:
     dse_tr = _create_dse_report_fixture(slurm_system, slurm_metadata)
-    reporter = StatusReporter(
-        slurm_system,
-        TestScenario(name="dse_scenario", test_runs=[dse_tr]),
-        slurm_system.output_path,
-        ReportConfig(),
-    )
+    _, summaries = _build_dse_summaries(slurm_system, dse_tr)
 
-    reporter.load_test_runs()
-    reporter.report_best_dse_config()
-
-    assert len(reporter.dse_summaries) == 1
-    summary = reporter.dse_summaries[0]
+    assert len(summaries) == 1
+    summary = summaries[0]
     assert summary.total_space == 8
     assert summary.executed_steps == 3
     assert summary.skipped_steps == 5
@@ -428,22 +454,27 @@ def test_dse_summary_and_best_scenario_artifacts(
     assert summary.estimated_saved_cost_usd == pytest.approx((summary.saved_gpu_hours or 0) * 4.5)
     assert summary.gpu_arch_family == "H100"
     assert summary.analysis_rel_path is not None
+    assert summary.best_config_rel_path == f"./{dse_tr.name}/0/{dse_tr.name}.toml"
+    assert summary.chart_svg is not None
+
+    best_values = {row.name: row.best_value for row in summary.parameter_rows}
+    assert best_values["nthreads"] == "2"
+    assert best_values["datatype"] == "uint8"
+    assert best_values["blocking"] == "1"
 
-    best_config_path = slurm_system.output_path / dse_tr.name / "0" / reporter.best_dse_config_file_name(dse_tr)
-    best_scenario_path = slurm_system.output_path / dse_tr.name / "0" / reporter.best_dse_scenario_file_name(dse_tr)
+    best_config_path = slurm_system.output_path / dse_tr.name / "0" / DSEReportBuilder.best_config_file_name(dse_tr)
     assert best_config_path.exists()
-    assert best_scenario_path.exists()
 
-    old_best = toml.load(best_config_path)
-    assert old_best["agent_steps"] == 3
+    best_config = toml.load(best_config_path)
+    assert best_config["agent_steps"] == 3
+    assert best_config["cmd_args"]["datatype"] == "uint8"
+    assert best_config["cmd_args"]["blocking"] == 1
+    assert best_config["cmd_args"]["nthreads"] == 2
 
-    best_scenario = toml.load(best_scenario_path)
-    assert best_scenario["Tests"][0]["cmd_args"]["datatype"] == "uint8"
-    assert best_scenario["Tests"][0]["cmd_args"]["blocking"] == 1
-    assert best_scenario["Tests"][0]["cmd_args"]["nthreads"] == 2
-    assert best_scenario["Tests"][0]["num_nodes"] == 2
-    assert "agent" not in best_scenario["Tests"][0]
-    assert "agent_steps" not in best_scenario["Tests"][0]
+    inline_best_config = toml.loads(summary.best_config_toml or "")
+    assert inline_best_config["cmd_args"]["datatype"] == "uint8"
+    assert inline_best_config["cmd_args"]["blocking"] == 1
+    assert inline_best_config["cmd_args"]["nthreads"] == 2
 
 
 def test_dse_generate_scenario_report_renders_html(
@@ -463,9 +494,10 @@ def test_dse_generate_scenario_report_renders_html(
     html = report_path.read_text()
     assert "Saved GPU-Hours" in html
     assert "Reward Over Steps" in html
-    assert "Best Scenario TOML" in html
+    assert "Best Test TOML" in html
+    assert "Show best config TOML" in html
     assert "BO Analysis" in html
-    assert "dse-report-best-in-scenario.toml" in html
+    assert "dse-report.toml" in html
     assert "<svg" in html
 
 
@@ -473,21 +505,13 @@ def test_dse_console_summary_is_compact(
     slurm_system: SlurmSystem, slurm_metadata: SlurmSystemMetadata, caplog: pytest.LogCaptureFixture
 ) -> None:
     dse_tr = _create_dse_report_fixture(slurm_system, slurm_metadata)
-    reporter = StatusReporter(
-        slurm_system,
-        TestScenario(name="dse_scenario", test_runs=[dse_tr]),
-        slurm_system.output_path,
-        ReportConfig(),
-    )
-
-    reporter.load_test_runs()
-    reporter.report_best_dse_config()
+    reporter, summaries = _build_dse_summaries(slurm_system, dse_tr)
     with caplog.at_level("INFO"):
-        reporter.print_summary()
+        reporter.to_console(summaries)
 
     assert "steps=3/8" in caplog.text
     assert "best_step=2" in caplog.text
-    assert "dse-report-best-in-scenario.toml" in caplog.text
+    assert "dse-report.toml" in caplog.text
     assert "step=1" not in caplog.text
 
 
@@ -495,15 +519,7 @@ def test_unknown_gpu_family_omits_estimated_cost(
     slurm_system: SlurmSystem, slurm_metadata: SlurmSystemMetadata
 ) -> None:
     dse_tr = _create_dse_report_fixture(slurm_system, slurm_metadata, gpu_name="Mystery GPU")
-    reporter = StatusReporter(
-        slurm_system,
-        TestScenario(name="dse_scenario", test_runs=[dse_tr]),
-        slurm_system.output_path,
-        ReportConfig(),
-    )
-
-    reporter.load_test_runs()
-    reporter.report_best_dse_config()
+    _reporter, summaries = _build_dse_summaries(slurm_system, dse_tr)
 
-    assert reporter.dse_summaries[0].gpu_arch_family is None
-    assert reporter.dse_summaries[0].estimated_saved_cost_usd is None
+    assert summaries[0].gpu_arch_family is None
+    assert summaries[0].estimated_saved_cost_usd is None

From e1babd5041146f0f6a155c866a0a7e66f7b52568 Mon Sep 17 00:00:00 2001
From: Ivan Podkidyshev <ipodkidyshev@nvidia.com>
Date: Sun, 22 Mar 2026 20:05:38 +0100
Subject: [PATCH 03/30] better visuals

---
 src/cloudai/report_generator/status_report.py |  96 +---
 src/cloudai/util/base-report.jinja2           |  75 ++-
 src/cloudai/util/general-report.jinja2        | 517 +++++++++++++-----
 tests/test_reporter.py                        |  14 +-
 4 files changed, 481 insertions(+), 221 deletions(-)

diff --git a/src/cloudai/report_generator/status_report.py b/src/cloudai/report_generator/status_report.py
index cfb732e38..733071301 100644
--- a/src/cloudai/report_generator/status_report.py
+++ b/src/cloudai/report_generator/status_report.py
@@ -24,13 +24,12 @@
 from typing import Any, Optional
 
 import toml
+from pydantic import BaseModel
 
 from cloudai.core import CommandGenStrategy, TestRun, case_name
 from cloudai.models.scenario import TestRunDetails
 from cloudai.util.lazy_imports import lazy
 
-from ..systems.slurm import SlurmJobMetadata, SlurmSystemMetadata
-
 GPU_HOURLY_COST_USD = {
     "H100": 4.50,
     "B200": 8.00,
@@ -110,77 +109,38 @@ def _build_running_best(points: list[tuple[int, float]]) -> list[tuple[int, floa
     return running_best
 
 
-def _chart_points(points: list[tuple[int, float]], width: int, height: int, padding: int) -> list[tuple[float, float]]:
-    if not points:
-        return []
+def _build_reward_chart_data(steps: list["DSEStepData"]) -> dict[str, list[Any]] | None:
+    if not steps:
+        return None
 
-    x_vals = [step for step, _ in points]
-    y_vals = [reward for _, reward in points]
-    min_x, max_x = min(x_vals), max(x_vals)
-    min_y, max_y = min(y_vals), max(y_vals)
+    reward_points = [(step.step, step.reward) for step in steps]
+    running_best = _build_running_best(reward_points)
+    return {
+        "labels": [step.step for step in steps],
+        "rewards": [step.reward for step in steps],
+        "running_best": [reward for _, reward in running_best],
+        "observations": [step.observation_display for step in steps],
+    }
 
-    x_span = max(max_x - min_x, 1)
-    y_span = max(max_y - min_y, 1e-9)
-    inner_width = width - 2 * padding
-    inner_height = height - 2 * padding
 
-    result = []
-    for step, reward in points:
-        x = padding + ((step - min_x) / x_span) * inner_width
-        y = height - padding - ((reward - min_y) / y_span) * inner_height
-        result.append((x, y))
-    return result
+class _ReportMetadataSystem(BaseModel):
+    gpu_arch_type: str
 
 
-def _polyline(points: list[tuple[float, float]]) -> str:
-    return " ".join(f"{x:.2f},{y:.2f}" for x, y in points)
+class _ReportMetadataSlurm(BaseModel):
+    node_list: str
 
 
-def _build_reward_chart_svg(steps: list["DSEStepData"]) -> str | None:
-    if not steps:
-        return None
+class _ReportSystemMetadata(BaseModel):
+    system: _ReportMetadataSystem
+    slurm: _ReportMetadataSlurm
 
-    width, height, padding = 720, 260, 34
-    reward_points = [(step.step, step.reward) for step in steps]
-    running_best = _build_running_best(reward_points)
-    reward_coords = _chart_points(reward_points, width, height, padding)
-    best_coords = _chart_points(running_best, width, height, padding)
-
-    reward_line = _polyline(reward_coords)
-    best_line = _polyline(best_coords)
-    y_vals = [reward for _, reward in reward_points]
-    y_min, y_max = min(y_vals), max(y_vals)
-
-    circles = []
-    for step_data, (x, y) in zip(steps, reward_coords, strict=True):
-        tooltip = (
-            f"Step {step_data.step} | Reward: {format_float(step_data.reward, 4)}"
-            f" | Observation: {step_data.observation_display}"
-        )
-        circles.append(f'<circle cx="{x:.2f}" cy="{y:.2f}" r="4" fill="#1f77b4"><title>{tooltip}</title></circle>')
-
-    return "\n".join(
-        [
-            f'<svg viewBox="0 0 {width} {height}" class="dse-chart" role="img" '
-            f'aria-label="Reward over DSE steps. Min reward {format_float(y_min, 4)}, '
-            f'max reward {format_float(y_max, 4)}.">',
-            f'<line x1="{padding}" y1="{height - padding}" x2="{width - padding}" y2="{height - padding}" '
-            'stroke="#94a3b8" stroke-width="1" />',
-            f'<line x1="{padding}" y1="{padding}" x2="{padding}" y2="{height - padding}" '
-            'stroke="#94a3b8" stroke-width="1" />',
-            f'<polyline fill="none" stroke="#1f77b4" stroke-width="2" points="{reward_line}" />',
-            f'<polyline fill="none" stroke="#ef4444" stroke-width="2" stroke-dasharray="6 4" points="{best_line}" />',
-            *circles,
-            f'<text x="{width / 2:.0f}" y="{height - 6}" text-anchor="middle" fill="#475569" '
-            'font-size="12">Step</text>',
-            f'<text x="16" y="{height / 2:.0f}" transform="rotate(-90 16 {height / 2:.0f})" '
-            'text-anchor="middle" fill="#475569" font-size="12">Reward</text>',
-            "</svg>",
-        ]
-    )
+
+class _ReportJobMetadata(BaseModel):
+    elapsed_time_sec: int
 
 
-def load_system_metadata(run_dir: Path, results_root: Path) -> SlurmSystemMetadata | None:
+def load_system_metadata(run_dir: Path, results_root: Path) -> _ReportSystemMetadata | None:
     """Load system metadata from run_dir. At the moment it supports only Slurm."""
     metadata_path = run_dir / "metadata"
     if not metadata_path.exists():
@@ -198,7 +158,7 @@ def load_system_metadata(run_dir: Path, results_root: Path) -> SlurmSystemMetada
     node_file = node_files[0]
     with node_file.open() as f:
         try:
-            return SlurmSystemMetadata.model_validate(toml.load(f))
+            return _ReportSystemMetadata.model_validate(toml.load(f))
         except Exception as e:
             logging.debug(f"Error validating metadata for {node_file}: {e}")
 
@@ -212,7 +172,7 @@ class ReportItem:
     name: str
     description: str
     logs_path: Optional[str] = None
-    nodes: Optional[SlurmSystemMetadata] = None
+    nodes: Optional[_ReportSystemMetadata] = None
 
     @classmethod
     def from_test_runs(cls, test_runs: list[TestRun], results_root: Path) -> list["ReportItem"]:
@@ -285,7 +245,7 @@ class DSESummary:
     best_config_toml: str | None
     analysis_rel_path: str | None
     parameter_rows: list[DSEParameterRow] = field(default_factory=list)
-    chart_svg: str | None = None
+    reward_chart_data: dict[str, list[Any]] | None = None
 
     @property
     def display_name(self) -> str:
@@ -493,7 +453,7 @@ def _build_iteration_summary(
             best_config_toml=best_config_toml,
             analysis_rel_path=f"./{analysis_file.relative_to(self.results_root)}" if analysis_file.exists() else None,
             parameter_rows=parameter_rows,
-            chart_svg=_build_reward_chart_svg(steps),
+            reward_chart_data=_build_reward_chart_data(steps),
         )
 
     @staticmethod
@@ -503,5 +463,5 @@ def _step_elapsed_time(step_dir: Path) -> int | None:
             return None
 
         with slurm_job_path.open() as f:
-            metadata = SlurmJobMetadata.model_validate(toml.load(f))
+            metadata = _ReportJobMetadata.model_validate(toml.load(f))
         return metadata.elapsed_time_sec
diff --git a/src/cloudai/util/base-report.jinja2 b/src/cloudai/util/base-report.jinja2
index 80cff35e2..87b28de82 100644
--- a/src/cloudai/util/base-report.jinja2
+++ b/src/cloudai/util/base-report.jinja2
@@ -3,50 +3,95 @@
     <head>
         <title>{{ name }}</title>
         <style>
+            :root {
+                --nv-green: #76b900;
+                --nv-green-bright: #8cc63f;
+                --nv-green-strong: #5e9c00;
+                --nv-green-soft: #f1f8e6;
+                --nv-ink: #111111;
+                --nv-graphite: #1f2428;
+                --nv-slate: #39424e;
+                --nv-border: #d6e7c3;
+                --nv-surface: #ffffff;
+                --nv-surface-alt: #f6faef;
+                --nv-text: #182026;
+                --nv-muted: #5f6b65;
+                --nv-shadow: 0 16px 42px rgba(17, 17, 17, 0.08);
+                --radius-lg: 22px;
+                --radius-md: 16px;
+                --radius-sm: 12px;
+            }
             body {
-                font-family: -apple-system, BlinkMacSystemFont, 'Segoe UI', Roboto, Oxygen, Ubuntu, sans-serif;
+                font-family: -apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, Oxygen, Ubuntu, sans-serif;
                 line-height: 1.6;
-                max-width: 1200px;
+                max-width: 1440px;
                 margin: 0;
-                padding: 2rem;
-                color: #333;
+                padding: 2.5rem;
+                color: var(--nv-text);
+                background:
+                    radial-gradient(circle at top left, rgba(118, 185, 0, 0.10), transparent 28%),
+                    linear-gradient(180deg, #f8fbf5 0%, #ffffff 22%);
             }
             h1 {
-                color: #2c3e50;
-                border-bottom: 2px solid #eee;
-                padding-bottom: 0.5rem;
-                margin-bottom: 2rem;
+                color: var(--nv-ink);
+                border-bottom: 1px solid rgba(17, 17, 17, 0.08);
+                padding-bottom: 0.85rem;
+                margin: 0 0 2rem;
+                letter-spacing: -0.03em;
+                font-size: clamp(2rem, 2.8vw, 3rem);
             }
             h2 {
-                color: #2c3e50;
+                color: var(--nv-ink);
                 margin-top: 2rem;
                 margin-bottom: 1rem;
+                letter-spacing: -0.03em;
+            }
+            h3 {
+                color: var(--nv-ink);
+                margin: 0 0 0.9rem;
+                letter-spacing: -0.02em;
+            }
+            p {
+                color: var(--nv-muted);
             }
             table {
                 width: 100%;
                 border-collapse: collapse;
                 margin-top: 1rem;
-                box-shadow: 0 1px 3px rgba(0,0,0,0.1);
+                background: var(--nv-surface);
+                border-radius: var(--radius-md);
+                overflow: hidden;
+                box-shadow: 0 10px 30px rgba(17, 17, 17, 0.06);
             }
             th, td {
-                padding: 12px 15px;
+                padding: 14px 16px;
                 text-align: left;
-                border-bottom: 1px solid #eee;
+                border-bottom: 1px solid rgba(17, 17, 17, 0.07);
             }
             th {
-                background-color: #f8f9fa;
+                background-color: var(--nv-surface-alt);
                 font-weight: 600;
+                color: var(--nv-ink);
             }
             tr:hover {
-                background-color: #f8f9fa;
+                background-color: rgba(118, 185, 0, 0.06);
             }
             a {
-                color: #3498db;
+                color: var(--nv-green-strong);
                 text-decoration: none;
+                font-weight: 600;
             }
             a:hover {
                 text-decoration: underline;
             }
+            code, pre {
+                font-family: "SFMono-Regular", SFMono-Regular, Consolas, "Liberation Mono", Menlo, monospace;
+            }
+            @media (max-width: 768px) {
+                body {
+                    padding: 1.25rem;
+                }
+            }
         </style>
         {% block extra_head %}{% endblock %}
     </head>
diff --git a/src/cloudai/util/general-report.jinja2 b/src/cloudai/util/general-report.jinja2
index 55d3396d9..9c00a7ea4 100644
--- a/src/cloudai/util/general-report.jinja2
+++ b/src/cloudai/util/general-report.jinja2
@@ -1,214 +1,459 @@
 {% extends "base-report.jinja2" %}
 
 {% block extra_head %}
+{% if dse_summaries %}
+<script src="https://cdn.jsdelivr.net/npm/chart.js@4.4.3/dist/chart.umd.min.js"></script>
+{% endif %}
 <style>
     .dse-summary {
         margin: 2rem 0 3rem;
-        padding: 1.5rem;
-        border: 1px solid #e2e8f0;
-        border-radius: 16px;
-        background: linear-gradient(180deg, #ffffff 0%, #f8fbff 100%);
-        box-shadow: 0 8px 24px rgba(15, 23, 42, 0.05);
     }
-    .metrics-grid {
+    .overview-board {
+        position: relative;
+        margin-bottom: 1.5rem;
+        padding: 1.6rem;
+        border: 1px solid rgba(118, 185, 0, 0.28);
+        border-radius: var(--radius-lg);
+        background:
+            linear-gradient(140deg, rgba(118, 185, 0, 0.10), transparent 36%),
+            linear-gradient(180deg, rgba(255, 255, 255, 0.98), rgba(247, 252, 233, 0.98));
+        box-shadow: var(--nv-shadow);
+        color: var(--nv-text);
+    }
+    .overview-board::before {
+        content: "";
+        position: absolute;
+        top: 0;
+        left: 0;
+        right: 0;
+        height: 6px;
+        border-radius: var(--radius-lg) var(--radius-lg) 0 0;
+        background: linear-gradient(90deg, var(--nv-green), var(--nv-green-bright));
+        pointer-events: none;
+    }
+    .overview-topline {
+        display: flex;
+        flex-wrap: wrap;
+        align-items: center;
+        gap: 0.8rem 1rem;
+        margin-bottom: 0.8rem;
+    }
+    .overview-board h2 {
+        margin: 0;
+        color: var(--nv-ink);
+    }
+    .overview-description {
+        max-width: 78ch;
+        margin: 0 0 1.25rem;
+        color: var(--nv-muted);
+    }
+    .status-pill {
+        display: inline-flex;
+        align-items: center;
+        gap: 0.45rem;
+        padding: 0.28rem 0.8rem;
+        border-radius: 999px;
+        border: 1px solid rgba(17, 17, 17, 0.08);
+        background: #ffffff;
+        color: var(--nv-ink);
+        font-size: 0.8rem;
+        font-weight: 700;
+        text-transform: uppercase;
+        letter-spacing: 0.06em;
+    }
+    .status-pill--passed {
+        background: rgba(118, 185, 0, 0.14);
+        border-color: rgba(118, 185, 0, 0.32);
+    }
+    .status-pill--partial {
+        background: rgba(250, 204, 21, 0.16);
+        border-color: rgba(250, 204, 21, 0.34);
+    }
+    .status-pill--failed {
+        background: rgba(244, 63, 94, 0.14);
+        border-color: rgba(244, 63, 94, 0.30);
+    }
+    .overview-summary-line {
+        color: var(--nv-muted);
+        font-size: 0.95rem;
+    }
+    .overview-card-grid {
         display: grid;
         grid-template-columns: repeat(auto-fit, minmax(160px, 1fr));
-        gap: 12px;
-        margin: 1rem 0 1.5rem;
+        gap: 0.9rem;
     }
     .metric-card {
-        background: #fff;
-        border: 1px solid #dbe5f0;
-        border-radius: 12px;
-        padding: 0.9rem 1rem;
+        padding: 1rem 1.05rem;
+        border-radius: var(--radius-md);
+        border: 1px solid rgba(17, 17, 17, 0.06);
+        background: rgba(255, 255, 255, 0.96);
+    }
+    .metric-card--hero {
+        background: linear-gradient(180deg, rgba(118, 185, 0, 0.16), rgba(255, 255, 255, 0.98));
+        border-color: rgba(118, 185, 0, 0.34);
+        box-shadow: inset 0 4px 0 var(--nv-green);
+    }
+    .metric-card--muted {
+        background: rgba(255, 255, 255, 0.92);
     }
     .metric-label {
-        color: #64748b;
-        font-size: 0.85rem;
-        margin-bottom: 0.25rem;
+        color: var(--nv-muted);
+        font-size: 0.77rem;
+        text-transform: uppercase;
+        letter-spacing: 0.08em;
     }
     .metric-value {
-        color: #0f172a;
-        font-size: 1.3rem;
-        font-weight: 700;
+        margin-top: 0.3rem;
+        color: var(--nv-ink);
+        font-size: 1.6rem;
+        font-weight: 750;
+        line-height: 1.1;
+        letter-spacing: -0.03em;
     }
-    .dse-section-grid {
-        display: grid;
-        grid-template-columns: 1.2fr 1fr;
-        gap: 18px;
-        align-items: start;
+    .metric-note {
+        margin-top: 0.35rem;
+        color: var(--nv-muted);
+        font-size: 0.84rem;
     }
     .dse-box {
-        background: #fff;
-        border: 1px solid #dbe5f0;
-        border-radius: 12px;
-        padding: 1rem;
-        margin-top: 1rem;
+        margin-top: 1.15rem;
+        padding: 1.2rem 1.3rem;
+        border: 1px solid var(--nv-border);
+        border-radius: var(--radius-md);
+        background: linear-gradient(180deg, rgba(255, 255, 255, 0.96), rgba(244, 248, 240, 0.96));
+        box-shadow: 0 12px 34px rgba(17, 17, 17, 0.05);
     }
     .context-list {
         display: grid;
         grid-template-columns: repeat(auto-fit, minmax(180px, 1fr));
-        gap: 8px 16px;
+        gap: 0.85rem 1rem;
         margin: 0.75rem 0 0;
     }
     .context-list div {
         font-size: 0.95rem;
     }
     .label {
-        color: #64748b;
+        color: var(--nv-muted);
         display: block;
-        font-size: 0.82rem;
+        font-size: 0.78rem;
+        text-transform: uppercase;
+        letter-spacing: 0.06em;
     }
     .value {
-        color: #0f172a;
-        font-weight: 600;
+        color: var(--nv-ink);
+        font-weight: 650;
+    }
+    .best-link-list {
+        display: flex;
+        flex-wrap: wrap;
+        gap: 0.85rem 1.2rem;
+        margin-top: 1rem;
     }
     .best-link-list a {
-        margin-right: 1rem;
-        font-weight: 600;
+        display: inline-flex;
+        align-items: center;
+        gap: 0.4rem;
     }
     .best-config-preview {
         margin-top: 1rem;
+        border-radius: var(--radius-sm);
+        overflow: hidden;
+        border: 1px solid rgba(118, 185, 0, 0.22);
+        background: linear-gradient(180deg, #ffffff, #f8fbf4);
+    }
+    .best-config-preview summary {
+        cursor: pointer;
+        padding: 0.9rem 1rem;
+        color: var(--nv-ink);
+        font-weight: 650;
+        background: linear-gradient(180deg, rgba(118, 185, 0, 0.18), rgba(255, 255, 255, 0.72));
     }
     .best-config-preview pre {
-        max-height: 320px;
+        max-height: 360px;
         overflow: auto;
+        margin: 0;
         padding: 1rem;
-        border-radius: 12px;
-        background: #0f172a;
-        color: #e2e8f0;
+        color: #1f2933;
+        background: #fbfdf8;
+        border-top: 1px solid rgba(118, 185, 0, 0.16);
     }
     .best-value {
         display: inline-block;
-        padding: 0.2rem 0.5rem;
+        padding: 0.22rem 0.62rem;
         border-radius: 999px;
-        background: #dbeafe;
-        color: #1d4ed8;
-        font-weight: 700;
+        background: var(--nv-green-soft);
+        color: var(--nv-green-strong);
+        font-weight: 750;
+        white-space: nowrap;
     }
     .small-note {
-        color: #64748b;
-        font-size: 0.9rem;
-    }
-    .dse-chart {
-        width: 100%;
-        height: auto;
-        background: linear-gradient(180deg, #ffffff 0%, #f8fafc 100%);
-        border-radius: 12px;
-        border: 1px solid #dbe5f0;
-    }
-    @media (max-width: 900px) {
-        .dse-section-grid {
+        color: var(--nv-muted);
+        font-size: 0.92rem;
+        margin-top: 0;
+    }
+    .viz-card {
+        background: linear-gradient(180deg, rgba(255, 255, 255, 0.98), rgba(247, 250, 243, 0.98));
+    }
+    .chart-shell {
+        position: relative;
+        min-height: 260px;
+    }
+    .chart-shell canvas {
+        width: 100% !important;
+        height: 100% !important;
+    }
+    .chart-fallback {
+        margin-top: 0.75rem;
+        color: var(--nv-muted);
+        font-size: 0.88rem;
+    }
+    .chart-shell.is-enhanced + .chart-fallback,
+    .chart-shell.is-enhanced ~ .chart-fallback {
+        display: none;
+    }
+    .space-table th {
+        background: #f0f9de;
+    }
+    .space-table tbody tr:nth-child(even) {
+        background: rgba(118, 185, 0, 0.05);
+    }
+    .space-table tbody tr:hover {
+        background: rgba(118, 185, 0, 0.10);
+    }
+    @media (max-width: 640px) {
+        .overview-board {
+            padding: 1.2rem;
+        }
+        .metric-value {
+            font-size: 1.35rem;
+        }
+        .context-list {
             grid-template-columns: 1fr;
         }
     }
 </style>
+{% if dse_summaries %}
+<script>
+    document.addEventListener("DOMContentLoaded", function () {
+        if (typeof Chart === "undefined") {
+            return;
+        }
+
+        Chart.defaults.font.family = '-apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, Oxygen, Ubuntu, sans-serif';
+        Chart.defaults.color = "#5f6b65";
+        Chart.defaults.borderColor = "rgba(57, 66, 78, 0.10)";
+
+        const rewardCanvases = document.querySelectorAll(".js-reward-chart");
+        rewardCanvases.forEach((canvas) => {
+            const dataNode = document.getElementById(canvas.dataset.chartDataId);
+            if (!dataNode) {
+                return;
+            }
+            const chartData = JSON.parse(dataNode.textContent);
+            new Chart(canvas, {
+                type: "line",
+                data: {
+                    labels: chartData.labels,
+                    datasets: [
+                        {
+                            label: "Observed reward",
+                            data: chartData.rewards,
+                            borderColor: "#39424e",
+                            backgroundColor: "rgba(57, 66, 78, 0.14)",
+                            pointBackgroundColor: "#39424e",
+                            pointRadius: 3,
+                            pointHoverRadius: 4,
+                            borderWidth: 2,
+                            tension: 0.25,
+                            fill: true
+                        },
+                        {
+                            label: "Best so far",
+                            data: chartData.running_best,
+                            borderColor: "#76b900",
+                            backgroundColor: "rgba(118, 185, 0, 0.18)",
+                            pointBackgroundColor: "#76b900",
+                            pointRadius: 0,
+                            pointHoverRadius: 3,
+                            borderWidth: 3,
+                            tension: 0.18,
+                            borderDash: [8, 6],
+                            fill: false
+                        }
+                    ]
+                },
+                options: {
+                    responsive: true,
+                    maintainAspectRatio: false,
+                    interaction: {
+                        mode: "index",
+                        intersect: false
+                    },
+                    plugins: {
+                        legend: {
+                            labels: {
+                                usePointStyle: true,
+                                boxWidth: 8
+                            }
+                        },
+                        tooltip: {
+                            callbacks: {
+                                afterBody: function (context) {
+                                    const idx = context[0].dataIndex;
+                                    return "Observation: " + (chartData.observations[idx] || "n/a");
+                                }
+                            }
+                        }
+                    },
+                    scales: {
+                        x: {
+                            title: {
+                                display: true,
+                                text: "Step"
+                            }
+                        },
+                        y: {
+                            title: {
+                                display: true,
+                                text: "Reward"
+                            }
+                        }
+                    }
+                }
+            });
+            canvas.parentElement.classList.add("is-enhanced");
+        });
+
+    });
+</script>
+{% endif %}
 {% endblock %}
 
 {% block content %}
 {% if dse_summaries %}
     {% for summary in dse_summaries %}
     <section class="dse-summary">
-        <h2>{{ summary.display_name }}</h2>
-        <p>{{ summary.description }}</p>
-
-        <div class="metrics-grid">
-            <div class="metric-card">
-                <div class="metric-label">Space</div>
-                <div class="metric-value">{{ summary.total_space }}</div>
-            </div>
-            <div class="metric-card">
-                <div class="metric-label">Ran</div>
-                <div class="metric-value">{{ summary.executed_steps }}</div>
-            </div>
-            <div class="metric-card">
-                <div class="metric-label">Skipped</div>
-                <div class="metric-value">{{ summary.skipped_steps }}</div>
-            </div>
-            <div class="metric-card">
-                <div class="metric-label">Coverage</div>
-                <div class="metric-value">{{ format_percent(summary.coverage_percent) }}</div>
-            </div>
-            <div class="metric-card">
-                <div class="metric-label">Saved Time</div>
-                <div class="metric-value">{{ format_duration(summary.saved_runtime_sec) }}</div>
+        <div class="overview-board">
+            <div class="overview-topline">
+                <h2>{{ summary.display_name }}</h2>
+                <span class="status-pill status-pill--{{ summary.status_text | lower }}">{{ summary.status_text }}</span>
+                <span class="overview-summary-line">
+                    {{ summary.executed_steps }} explored out of {{ summary.total_space }} combinations
+                    {% if summary.best_step is not none %} • best step {{ summary.best_step }}{% endif %}
+                    {% if summary.best_reward is not none %} • reward {{ format_float(summary.best_reward, 4) }}{% endif %}
+                </span>
             </div>
-            <div class="metric-card">
-                <div class="metric-label">Saved GPU-Hours</div>
-                <div class="metric-value">{{ format_float(summary.saved_gpu_hours, 2) }}</div>
-            </div>
-            <div class="metric-card">
-                <div class="metric-label">Estimated $ Saved</div>
-                <div class="metric-value">{{ format_money(summary.estimated_saved_cost_usd) }}</div>
+            <p class="overview-description">{{ summary.description }}</p>
+
+            <div class="overview-card-grid">
+                <div class="metric-card metric-card--hero">
+                    <div class="metric-label">Saved Time</div>
+                    <div class="metric-value">{{ format_duration(summary.saved_runtime_sec) }}</div>
+                    <div class="metric-note">Projected full search minus observed runtime</div>
+                </div>
+                <div class="metric-card metric-card--hero">
+                    <div class="metric-label">Saved GPU-Hours</div>
+                    <div class="metric-value">{{ format_float(summary.saved_gpu_hours, 2) }}</div>
+                    <div class="metric-note">Estimated from nodes, GPUs per node, and observed timings</div>
+                </div>
+                <div class="metric-card metric-card--hero">
+                    <div class="metric-label">Estimated $ Saved</div>
+                    <div class="metric-value">{{ format_money(summary.estimated_saved_cost_usd) }}</div>
+                    <div class="metric-note">Approximate savings using GPU-family hourly assumptions</div>
+                </div>
+                <div class="metric-card metric-card--muted">
+                    <div class="metric-label">Space</div>
+                    <div class="metric-value">{{ summary.total_space }}</div>
+                </div>
+                <div class="metric-card metric-card--muted">
+                    <div class="metric-label">Ran</div>
+                    <div class="metric-value">{{ summary.executed_steps }}</div>
+                </div>
+                <div class="metric-card metric-card--muted">
+                    <div class="metric-label">Skipped</div>
+                    <div class="metric-value">{{ summary.skipped_steps }}</div>
+                </div>
+                <div class="metric-card metric-card--muted">
+                    <div class="metric-label">Coverage</div>
+                    <div class="metric-value">{{ format_percent(summary.coverage_percent) }}</div>
+                </div>
             </div>
         </div>
 
         <div class="dse-box">
             <h3>Execution Context</h3>
             <div class="context-list">
-                <div><span class="label">Status</span><span class="value">{{ summary.status_text }}</span></div>
                 <div><span class="label">GPU Family</span><span class="value">{{ summary.gpu_arch_family or "unknown" }}</span></div>
                 <div><span class="label">GPU Label</span><span class="value">{{ summary.gpu_arch_label or "unknown" }}</span></div>
                 <div><span class="label">GPUs Per Node</span><span class="value">{{ summary.gpus_per_node or "unknown" }}</span></div>
                 <div><span class="label">Nodes</span><span class="value">{{ summary.num_nodes or "unknown" }}</span></div>
-                <div><span class="label">Step Success/Failure</span><span class="value">{{ summary.success_count }}/{{ summary.failure_count }}</span></div>
+                <div><span class="label">Step Success / Failure</span><span class="value">{{ summary.success_count }} / {{ summary.failure_count }}</span></div>
                 <div><span class="label">Average Step Runtime</span><span class="value">{{ format_duration(summary.avg_step_duration_sec) }}</span></div>
                 <div><span class="label">Observed Runtime</span><span class="value">{{ format_duration(summary.total_runtime_sec) }}</span></div>
                 <div><span class="label">Projected Full-Space Runtime</span><span class="value">{{ format_duration(summary.projected_runtime_sec) }}</span></div>
             </div>
         </div>
 
-        <div class="dse-section-grid">
-            <div>
-                <div class="dse-box">
-                    <h3>Best Step</h3>
-                    <div class="context-list">
-                        <div><span class="label">Best Step</span><span class="value">{{ summary.best_step }}</span></div>
-                        <div><span class="label">Best Reward</span><span class="value">{{ format_float(summary.best_reward, 4) }}</span></div>
-                        <div><span class="label">Best Observation</span><span class="value">{{ summary.best_observation_display }}</span></div>
-                        <div><span class="label">Run Folder</span><span class="value"><a href="{{ summary.output_root_rel_path }}">open</a></span></div>
-                    </div>
-                    <div class="best-link-list" style="margin-top: 1rem;">
-                        {% if summary.best_config_rel_path %}<a href="{{ summary.best_config_rel_path }}">Best Test TOML</a>{% endif %}
-                        {% if summary.analysis_rel_path %}<a href="{{ summary.analysis_rel_path }}">BO Analysis</a>{% endif %}
-                    </div>
-                    {% if summary.best_config_toml %}
-                    <details class="best-config-preview">
-                        <summary>Show best config TOML</summary>
-                        <pre>{{ summary.best_config_toml }}</pre>
-                    </details>
-                    {% endif %}
-                </div>
-
-                <div class="dse-box">
-                    <h3>Exploration Space</h3>
-                    <p class="small-note">Each row shows the allowed values for a swept parameter and the selected best value.</p>
-                    <table>
-                        <tr>
-                            <th>Parameter</th>
-                            <th>Allowed Values</th>
-                            <th>Best</th>
-                        </tr>
-                        {% for row in summary.parameter_rows %}
-                        <tr>
-                            <td>{{ row.name }}</td>
-                            <td>{{ row.values | join(", ") }}</td>
-                            <td><span class="best-value">{{ row.best_value }}</span></td>
-                        </tr>
-                        {% endfor %}
-                    </table>
-                </div>
+        <div class="dse-box">
+            <h3>Best Step</h3>
+            <div class="context-list">
+                <div><span class="label">Best Step</span><span class="value">{{ summary.best_step }}</span></div>
+                <div><span class="label">Best Reward</span><span class="value">{{ format_float(summary.best_reward, 4) }}</span></div>
+                <div><span class="label">Best Observation</span><span class="value">{{ summary.best_observation_display }}</span></div>
+                <div><span class="label">Run Folder</span><span class="value"><a href="{{ summary.output_root_rel_path }}">open</a></span></div>
             </div>
-
-            <div class="dse-box">
-                <h3>Reward Over Steps</h3>
-                <p class="small-note">Blue shows observed reward per trial. Red dashed shows the best-so-far curve.</p>
-                {% if summary.chart_svg %}
-                    {{ summary.chart_svg | safe }}
-                {% else %}
-                    <p>No reward data available.</p>
-                {% endif %}
+            <div class="best-link-list">
+                {% if summary.best_config_rel_path %}<a href="{{ summary.best_config_rel_path }}">Best Test TOML</a>{% endif %}
+                {% if summary.analysis_rel_path %}<a href="{{ summary.analysis_rel_path }}">BO Analysis</a>{% endif %}
             </div>
+            {% if summary.best_config_toml %}
+            <details class="best-config-preview">
+                <summary>Show best config TOML</summary>
+                <pre>{{ summary.best_config_toml }}</pre>
+            </details>
+            {% endif %}
+        </div>
+
+        <div class="dse-box">
+            <h3>Exploration Space</h3>
+            <p class="small-note">Each row shows the allowed values for a swept parameter and the selected best value.</p>
+            <table class="space-table">
+                <thead>
+                    <tr>
+                        <th>Parameter</th>
+                        <th>Allowed Values</th>
+                        <th>Best</th>
+                    </tr>
+                </thead>
+                <tbody>
+                    {% for row in summary.parameter_rows %}
+                    <tr>
+                        <td>{{ row.name }}</td>
+                        <td>{{ row.values | join(", ") }}</td>
+                        <td><span class="best-value">{{ row.best_value }}</span></td>
+                    </tr>
+                    {% endfor %}
+                </tbody>
+            </table>
+        </div>
+
+        <div class="dse-box viz-card">
+            <h3>Reward Over Steps</h3>
+            <p class="small-note">Observed reward is shown as the dark line; the NVIDIA-green dashed line tracks the best-so-far trajectory.</p>
+            {% if summary.reward_chart_data %}
+                <div class="chart-shell">
+                    <canvas
+                        class="js-reward-chart"
+                        data-chart-data-id="reward-chart-data-{{ loop.index0 }}"
+                        aria-label="Line chart of reward over DSE steps"
+                    ></canvas>
+                </div>
+                <script type="application/json" id="reward-chart-data-{{ loop.index0 }}">{{ summary.reward_chart_data | tojson }}</script>
+                <p class="chart-fallback">Interactive chart unavailable. Step count, best reward, and summary metrics remain available above.</p>
+                <noscript><p class="chart-fallback">JavaScript is disabled. Numeric report details remain available without charts.</p></noscript>
+            {% else %}
+                <p>No reward data available.</p>
+            {% endif %}
         </div>
     </section>
     {% endfor %}
diff --git a/tests/test_reporter.py b/tests/test_reporter.py
index 71511fab9..64bb97b7c 100644
--- a/tests/test_reporter.py
+++ b/tests/test_reporter.py
@@ -455,7 +455,11 @@ def test_dse_summary_and_best_config_artifacts(slurm_system: SlurmSystem, slurm_
     assert summary.gpu_arch_family == "H100"
     assert summary.analysis_rel_path is not None
     assert summary.best_config_rel_path == f"./{dse_tr.name}/0/{dse_tr.name}.toml"
-    assert summary.chart_svg is not None
+    assert summary.reward_chart_data is not None
+    assert summary.reward_chart_data["labels"] == [1, 2, 3]
+    assert summary.reward_chart_data["rewards"] == pytest.approx([1.5, 3.0, 2.0])
+    assert summary.reward_chart_data["running_best"] == pytest.approx([1.5, 3.0, 3.0])
+    assert summary.reward_chart_data["observations"] == ["2.5", "1.2", "1.8"]
 
     best_values = {row.name: row.best_value for row in summary.parameter_rows}
     assert best_values["nthreads"] == "2"
@@ -492,13 +496,19 @@ def test_dse_generate_scenario_report_renders_html(
 
     report_path = slurm_system.output_path / "dse_scenario.html"
     html = report_path.read_text()
+    assert "cdn.jsdelivr.net/npm/chart.js" in html
     assert "Saved GPU-Hours" in html
     assert "Reward Over Steps" in html
     assert "Best Test TOML" in html
     assert "Show best config TOML" in html
     assert "BO Analysis" in html
     assert "dse-report.toml" in html
-    assert "<svg" in html
+    assert "js-reward-chart" in html
+    assert "chart-shell" in html
+    assert "dse-section-grid" not in html
+    assert "Exploration Mix" not in html
+    assert "37.50%" in html
+    assert "1m 40s" in html
 
 
 def test_dse_console_summary_is_compact(

From 660564afea05aa4d6d1e1208b77eb56207016806 Mon Sep 17 00:00:00 2001
From: Ivan Podkidyshev <ipodkidyshev@nvidia.com>
Date: Mon, 23 Mar 2026 15:31:23 +0100
Subject: [PATCH 04/30] always render statuses table

---
 src/cloudai/util/general-report.jinja2 | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/src/cloudai/util/general-report.jinja2 b/src/cloudai/util/general-report.jinja2
index 9c00a7ea4..d41c0bbf4 100644
--- a/src/cloudai/util/general-report.jinja2
+++ b/src/cloudai/util/general-report.jinja2
@@ -330,7 +330,7 @@
 {% endblock %}
 
 {% block content %}
-{% if dse_summaries %}
+
     {% for summary in dse_summaries %}
     <section class="dse-summary">
         <div class="overview-board">
@@ -457,7 +457,7 @@
         </div>
     </section>
     {% endfor %}
-{% else %}
+
 <table>
     <tr>
         <th>Test</th>
@@ -484,5 +484,5 @@
     </tr>
     {% endfor %}
 </table>
-{% endif %}
+
 {% endblock %}

From e099bc96208a599d854e60ff11468ce5b0749c7b Mon Sep 17 00:00:00 2001
From: Ivan Podkidyshev <ipodkidyshev@nvidia.com>
Date: Tue, 24 Mar 2026 14:03:10 +0100
Subject: [PATCH 05/30] cleaner look of the report

---
 src/cloudai/report_generator/status_report.py |  45 +-
 src/cloudai/util/general-report.jinja2        | 429 +++++++++++++-----
 tests/test_reporter.py                        |  23 +-
 3 files changed, 346 insertions(+), 151 deletions(-)

diff --git a/src/cloudai/report_generator/status_report.py b/src/cloudai/report_generator/status_report.py
index 733071301..15e929d7e 100644
--- a/src/cloudai/report_generator/status_report.py
+++ b/src/cloudai/report_generator/status_report.py
@@ -21,7 +21,7 @@
 import logging
 from dataclasses import dataclass, field
 from pathlib import Path
-from typing import Any, Optional
+from typing import Any
 
 import toml
 from pydantic import BaseModel
@@ -123,6 +123,20 @@ def _build_reward_chart_data(steps: list["DSEStepData"]) -> dict[str, list[Any]]
     }
 
 
+def _build_effort_chart_data(executed_steps: int, total_space: int) -> dict[str, Any] | None:
+    if total_space <= 0:
+        return None
+
+    explored_ratio = min(max(executed_steps / total_space, 0.0), 1.0)
+    explored_display_percent = 100.0 if explored_ratio >= 1.0 else min(max(explored_ratio * 100.0, 14.0), 62.0)
+
+    return {
+        "explored_ratio": explored_ratio,
+        "explored_display_percent": explored_display_percent,
+        "remainder_display_percent": max(100.0 - explored_display_percent, 0.0),
+    }
+
+
 class _ReportMetadataSystem(BaseModel):
     gpu_arch_type: str
 
@@ -171,19 +185,25 @@ class ReportItem:
 
     name: str
     description: str
-    logs_path: Optional[str] = None
-    nodes: Optional[_ReportSystemMetadata] = None
+    logs_path: str | None
+    nodes: _ReportSystemMetadata | None
+    status_text: str
+    status_class: str
 
     @classmethod
     def from_test_runs(cls, test_runs: list[TestRun], results_root: Path) -> list["ReportItem"]:
         report_items: list[ReportItem] = []
         for tr in test_runs:
+            tr_status = tr.test.was_run_successful(tr)
+            status_text = "PASSED" if tr_status.is_successful else "FAILED"
             report_items.append(
                 ReportItem(
                     name=case_name(tr),
                     description=tr.test.description,
                     logs_path=f"./{tr.output_path.relative_to(results_root)}" if tr.output_path.exists() else None,
                     nodes=load_system_metadata(tr.output_path, results_root),
+                    status_text=status_text,
+                    status_class=status_text.lower(),
                 )
             )
         return report_items
@@ -223,22 +243,14 @@ class DSESummary:
     total_space: int
     executed_steps: int
     skipped_steps: int
-    coverage_percent: float | None
     best_step: int | None
     best_reward: float | None
-    best_observation_display: str
     avg_step_duration_sec: float | None
     total_runtime_sec: float | None
-    projected_runtime_sec: float | None
     saved_runtime_sec: float | None
     success_count: int
     failure_count: int
     gpu_arch_label: str | None
-    gpu_arch_family: str | None
-    gpus_per_node: int | None
-    num_nodes: int | None
-    total_gpu_hours: float | None
-    projected_gpu_hours: float | None
     saved_gpu_hours: float | None
     estimated_saved_cost_usd: float | None
     best_config_rel_path: str | None
@@ -246,6 +258,7 @@ class DSESummary:
     analysis_rel_path: str | None
     parameter_rows: list[DSEParameterRow] = field(default_factory=list)
     reward_chart_data: dict[str, list[Any]] | None = None
+    effort_chart_data: dict[str, Any] | None = None
 
     @property
     def display_name(self) -> str:
@@ -375,7 +388,6 @@ def _build_iteration_summary(
         total_space = len(original_tr.all_combinations)
         executed_steps = len(steps)
         skipped_steps = max(total_space - executed_steps, 0)
-        coverage_percent = (executed_steps / total_space * 100.0) if total_space else None
         projected_runtime_sec = avg_step_duration_sec * total_space if avg_step_duration_sec is not None else None
         saved_runtime_sec = (
             max(projected_runtime_sec - total_runtime_sec, 0.0)
@@ -431,22 +443,14 @@ def _build_iteration_summary(
             total_space=total_space,
             executed_steps=executed_steps,
             skipped_steps=skipped_steps,
-            coverage_percent=coverage_percent,
             best_step=best_step_data.step,
             best_reward=best_step_data.reward,
-            best_observation_display=best_step_data.observation_display,
             avg_step_duration_sec=avg_step_duration_sec,
             total_runtime_sec=total_runtime_sec,
-            projected_runtime_sec=projected_runtime_sec,
             saved_runtime_sec=saved_runtime_sec,
             success_count=success_count,
             failure_count=failure_count,
             gpu_arch_label=gpu_arch_label,
-            gpu_arch_family=gpu_arch_family,
-            gpus_per_node=gpus_per_node,
-            num_nodes=num_nodes,
-            total_gpu_hours=total_gpu_hours,
-            projected_gpu_hours=projected_gpu_hours,
             saved_gpu_hours=saved_gpu_hours,
             estimated_saved_cost_usd=estimated_saved_cost_usd,
             best_config_rel_path=f"./{best_config_path.relative_to(self.results_root)}",
@@ -454,6 +458,7 @@ def _build_iteration_summary(
             analysis_rel_path=f"./{analysis_file.relative_to(self.results_root)}" if analysis_file.exists() else None,
             parameter_rows=parameter_rows,
             reward_chart_data=_build_reward_chart_data(steps),
+            effort_chart_data=_build_effort_chart_data(executed_steps, total_space),
         )
 
     @staticmethod
diff --git a/src/cloudai/util/general-report.jinja2 b/src/cloudai/util/general-report.jinja2
index d41c0bbf4..30f4025ef 100644
--- a/src/cloudai/util/general-report.jinja2
+++ b/src/cloudai/util/general-report.jinja2
@@ -8,17 +8,18 @@
     .dse-summary {
         margin: 2rem 0 3rem;
     }
+    .overview-board,
+    .dse-box {
+        border: 1px solid var(--nv-border);
+        border-radius: var(--radius-lg);
+        background: linear-gradient(180deg, rgba(255, 255, 255, 0.98), rgba(247, 252, 233, 0.98));
+        box-shadow: var(--nv-shadow);
+    }
     .overview-board {
         position: relative;
         margin-bottom: 1.5rem;
         padding: 1.6rem;
-        border: 1px solid rgba(118, 185, 0, 0.28);
-        border-radius: var(--radius-lg);
-        background:
-            linear-gradient(140deg, rgba(118, 185, 0, 0.10), transparent 36%),
-            linear-gradient(180deg, rgba(255, 255, 255, 0.98), rgba(247, 252, 233, 0.98));
-        box-shadow: var(--nv-shadow);
-        color: var(--nv-text);
+        overflow: hidden;
     }
     .overview-board::before {
         content: "";
@@ -36,7 +37,7 @@
         flex-wrap: wrap;
         align-items: center;
         gap: 0.8rem 1rem;
-        margin-bottom: 0.8rem;
+        margin-bottom: 0.85rem;
     }
     .overview-board h2 {
         margin: 0;
@@ -77,10 +78,11 @@
         color: var(--nv-muted);
         font-size: 0.95rem;
     }
-    .overview-card-grid {
+    .summary-stat-grid {
         display: grid;
-        grid-template-columns: repeat(auto-fit, minmax(160px, 1fr));
+        grid-template-columns: repeat(auto-fit, minmax(170px, 1fr));
         gap: 0.9rem;
+        margin-bottom: 1rem;
     }
     .metric-card {
         padding: 1rem 1.05rem;
@@ -93,10 +95,13 @@
         border-color: rgba(118, 185, 0, 0.34);
         box-shadow: inset 0 4px 0 var(--nv-green);
     }
-    .metric-card--muted {
-        background: rgba(255, 255, 255, 0.92);
+    .metric-card--neutral {
+        background: rgba(255, 255, 255, 0.94);
     }
     .metric-label {
+        display: flex;
+        align-items: center;
+        gap: 0.45rem;
         color: var(--nv-muted);
         font-size: 0.77rem;
         text-transform: uppercase;
@@ -110,27 +115,17 @@
         line-height: 1.1;
         letter-spacing: -0.03em;
     }
-    .metric-note {
-        margin-top: 0.35rem;
-        color: var(--nv-muted);
-        font-size: 0.84rem;
-    }
-    .dse-box {
-        margin-top: 1.15rem;
-        padding: 1.2rem 1.3rem;
-        border: 1px solid var(--nv-border);
-        border-radius: var(--radius-md);
-        background: linear-gradient(180deg, rgba(255, 255, 255, 0.96), rgba(244, 248, 240, 0.96));
-        box-shadow: 0 12px 34px rgba(17, 17, 17, 0.05);
-    }
-    .context-list {
+    .context-strip {
         display: grid;
         grid-template-columns: repeat(auto-fit, minmax(180px, 1fr));
-        gap: 0.85rem 1rem;
-        margin: 0.75rem 0 0;
+        gap: 0.8rem 1rem;
+        margin-bottom: 1rem;
     }
-    .context-list div {
-        font-size: 0.95rem;
+    .context-item {
+        padding: 0.85rem 0.95rem;
+        border-radius: var(--radius-md);
+        border: 1px solid rgba(17, 17, 17, 0.06);
+        background: rgba(255, 255, 255, 0.90);
     }
     .label {
         color: var(--nv-muted);
@@ -143,19 +138,119 @@
         color: var(--nv-ink);
         font-weight: 650;
     }
-    .best-link-list {
+    .effort-block {
+        padding: 1rem 1.05rem;
+        border-radius: var(--radius-md);
+        border: 1px solid rgba(118, 185, 0, 0.22);
+        background: linear-gradient(180deg, rgba(118, 185, 0, 0.08), rgba(255, 255, 255, 0.92));
+    }
+    .effort-head {
         display: flex;
         flex-wrap: wrap;
-        gap: 0.85rem 1.2rem;
-        margin-top: 1rem;
+        align-items: baseline;
+        justify-content: space-between;
+        gap: 0.5rem 1rem;
+        margin-bottom: 0.65rem;
+    }
+    .effort-head h3 {
+        margin: 0;
     }
-    .best-link-list a {
+    .effort-caption {
+        color: var(--nv-muted);
+        font-size: 0.92rem;
+    }
+    .effort-bar {
+        display: flex;
+        align-items: stretch;
+        width: 100%;
+        min-height: 56px;
+        margin: 0.7rem 0 0.6rem;
+        overflow: hidden;
+        border-radius: 999px;
+        border: 1px solid rgba(17, 17, 17, 0.08);
+        background: rgba(255, 255, 255, 0.86);
+    }
+    .effort-bar__explored {
+        display: flex;
+        align-items: center;
+        justify-content: center;
+        min-width: 86px;
+        background: linear-gradient(90deg, var(--nv-green), var(--nv-green-bright));
+        color: #ffffff;
+        font-weight: 700;
+        font-size: 0.9rem;
+    }
+    .effort-bar__break {
+        display: flex;
+        align-items: center;
+        justify-content: center;
+        width: 62px;
+        color: var(--nv-muted);
+        font-weight: 900;
+        letter-spacing: 0.08em;
+        background:
+            repeating-linear-gradient(
+                -55deg,
+                rgba(17, 17, 17, 0.06),
+                rgba(17, 17, 17, 0.06) 6px,
+                rgba(255, 255, 255, 0.75) 6px,
+                rgba(255, 255, 255, 0.75) 12px
+            );
+    }
+    .effort-bar__remaining {
+        display: flex;
+        align-items: center;
+        justify-content: flex-end;
+        padding-right: 1rem;
+        color: var(--nv-muted);
+        font-weight: 700;
+        background: rgba(17, 17, 17, 0.08);
+    }
+    .effort-scale {
+        display: flex;
+        justify-content: space-between;
+        gap: 1rem;
+        color: var(--nv-muted);
+        font-size: 0.9rem;
+    }
+    .dse-box {
+        margin-top: 1.15rem;
+        padding: 1.2rem 1.3rem;
+    }
+    .section-topline {
+        display: flex;
+        flex-wrap: wrap;
+        align-items: center;
+        justify-content: space-between;
+        gap: 0.8rem 1rem;
+        margin-bottom: 0.9rem;
+    }
+    .section-topline h3 {
+        margin: 0;
+    }
+    .best-config-actions {
+        display: flex;
+        flex-wrap: wrap;
+        gap: 0.75rem;
+        align-items: center;
+    }
+    .action-button {
         display: inline-flex;
         align-items: center;
         gap: 0.4rem;
+        padding: 0.55rem 0.9rem;
+        border-radius: 999px;
+        border: 1px solid rgba(118, 185, 0, 0.28);
+        background: #ffffff;
+        color: var(--nv-green-strong);
+        font-weight: 700;
+        cursor: pointer;
+    }
+    .action-button:hover {
+        background: var(--nv-green-soft);
+        text-decoration: none;
     }
     .best-config-preview {
-        margin-top: 1rem;
         border-radius: var(--radius-sm);
         overflow: hidden;
         border: 1px solid rgba(118, 185, 0, 0.22);
@@ -177,14 +272,30 @@
         background: #fbfdf8;
         border-top: 1px solid rgba(118, 185, 0, 0.16);
     }
-    .best-value {
-        display: inline-block;
+    .space-table th,
+    .steps-table th {
+        background: #f0f9de;
+    }
+    .value-cloud {
+        display: flex;
+        flex-wrap: wrap;
+        gap: 0.45rem;
+    }
+    .value-pill {
+        display: inline-flex;
+        align-items: center;
         padding: 0.22rem 0.62rem;
         border-radius: 999px;
+        background: rgba(255, 255, 255, 0.92);
+        border: 1px solid rgba(17, 17, 17, 0.08);
+        color: var(--nv-text);
+        font-weight: 650;
+        white-space: nowrap;
+    }
+    .value-pill--selected {
         background: var(--nv-green-soft);
+        border-color: rgba(118, 185, 0, 0.30);
         color: var(--nv-green-strong);
-        font-weight: 750;
-        white-space: nowrap;
     }
     .small-note {
         color: var(--nv-muted);
@@ -211,30 +322,55 @@
     .chart-shell.is-enhanced ~ .chart-fallback {
         display: none;
     }
-    .space-table th {
-        background: #f0f9de;
-    }
+    .steps-table tbody tr:nth-child(even),
     .space-table tbody tr:nth-child(even) {
         background: rgba(118, 185, 0, 0.05);
     }
+    .steps-table tbody tr:hover,
     .space-table tbody tr:hover {
         background: rgba(118, 185, 0, 0.10);
     }
     @media (max-width: 640px) {
-        .overview-board {
-            padding: 1.2rem;
+        .overview-board,
+        .dse-box {
+            padding: 1.1rem;
         }
         .metric-value {
             font-size: 1.35rem;
         }
-        .context-list {
+        .context-strip {
             grid-template-columns: 1fr;
         }
+        .effort-bar__break {
+            width: 46px;
+        }
     }
 </style>
 {% if dse_summaries %}
 <script>
     document.addEventListener("DOMContentLoaded", function () {
+        document.querySelectorAll(".js-copy-config").forEach((button) => {
+            button.addEventListener("click", async function () {
+                const target = document.getElementById(button.dataset.copyTarget);
+                if (!target) {
+                    return;
+                }
+                const originalText = button.textContent;
+                try {
+                    await navigator.clipboard.writeText(target.textContent || "");
+                    button.textContent = "Copied";
+                    setTimeout(() => {
+                        button.textContent = originalText;
+                    }, 1500);
+                } catch (_error) {
+                    button.textContent = "Copy failed";
+                    setTimeout(() => {
+                        button.textContent = originalText;
+                    }, 1500);
+                }
+            });
+        });
+
         if (typeof Chart === "undefined") {
             return;
         }
@@ -323,14 +459,13 @@
             });
             canvas.parentElement.classList.add("is-enhanced");
         });
-
     });
 </script>
 {% endif %}
 {% endblock %}
 
 {% block content %}
-
+{% if dse_summaries %}
     {% for summary in dse_summaries %}
     <section class="dse-summary">
         <div class="overview-board">
@@ -338,99 +473,103 @@
                 <h2>{{ summary.display_name }}</h2>
                 <span class="status-pill status-pill--{{ summary.status_text | lower }}">{{ summary.status_text }}</span>
                 <span class="overview-summary-line">
-                    {{ summary.executed_steps }} explored out of {{ summary.total_space }} combinations
-                    {% if summary.best_step is not none %} • best step {{ summary.best_step }}{% endif %}
-                    {% if summary.best_reward is not none %} • reward {{ format_float(summary.best_reward, 4) }}{% endif %}
+                    {{ "{:,}".format(summary.executed_steps) }} explored out of {{ "{:,}".format(summary.total_space) }} combinations
                 </span>
             </div>
             <p class="overview-description">{{ summary.description }}</p>
 
-            <div class="overview-card-grid">
+            <div class="summary-stat-grid">
+                <div class="metric-card metric-card--neutral">
+                    <div class="metric-label">Search Space</div>
+                    <div class="metric-value">{{ "{:,}".format(summary.total_space) }}</div>
+                </div>
+                <div class="metric-card metric-card--neutral">
+                    <div class="metric-label">Explored Steps</div>
+                    <div class="metric-value">{{ "{:,}".format(summary.executed_steps) }}</div>
+                </div>
                 <div class="metric-card metric-card--hero">
                     <div class="metric-label">Saved Time</div>
                     <div class="metric-value">{{ format_duration(summary.saved_runtime_sec) }}</div>
-                    <div class="metric-note">Projected full search minus observed runtime</div>
                 </div>
                 <div class="metric-card metric-card--hero">
                     <div class="metric-label">Saved GPU-Hours</div>
                     <div class="metric-value">{{ format_float(summary.saved_gpu_hours, 2) }}</div>
-                    <div class="metric-note">Estimated from nodes, GPUs per node, and observed timings</div>
                 </div>
                 <div class="metric-card metric-card--hero">
                     <div class="metric-label">Estimated $ Saved</div>
                     <div class="metric-value">{{ format_money(summary.estimated_saved_cost_usd) }}</div>
-                    <div class="metric-note">Approximate savings using GPU-family hourly assumptions</div>
                 </div>
-                <div class="metric-card metric-card--muted">
-                    <div class="metric-label">Space</div>
-                    <div class="metric-value">{{ summary.total_space }}</div>
-                </div>
-                <div class="metric-card metric-card--muted">
-                    <div class="metric-label">Ran</div>
-                    <div class="metric-value">{{ summary.executed_steps }}</div>
+            </div>
+
+            <div class="context-strip">
+                <div class="context-item"><span class="label">GPU Label</span><span class="value">{{ summary.gpu_arch_label or "unknown" }}</span></div>
+                <div class="context-item"><span class="label">Step Success / Failure</span><span class="value">{{ summary.success_count }} / {{ summary.failure_count }}</span></div>
+                <div class="context-item"><span class="label">Average Step Runtime</span><span class="value">{{ format_duration(summary.avg_step_duration_sec) }}</span></div>
+                <div class="context-item"><span class="label">Observed Runtime</span><span class="value">{{ format_duration(summary.total_runtime_sec) }}</span></div>
+            </div>
+
+            {% if summary.effort_chart_data %}
+            <div class="effort-block">
+                <div class="effort-head">
+                    <h3>DSE Savings</h3>
+                    <span class="effort-caption">Axis break emphasizes the gap between explored trials and full-space search.</span>
                 </div>
-                <div class="metric-card metric-card--muted">
-                    <div class="metric-label">Skipped</div>
-                    <div class="metric-value">{{ summary.skipped_steps }}</div>
+                <div class="effort-bar">
+                    <div class="effort-bar__explored" style="width: {{ summary.effort_chart_data.explored_display_percent }}%;">
+                        {{ "{:,}".format(summary.executed_steps) }}
+                    </div>
+                    {% if summary.skipped_steps > 0 %}
+                    <div class="effort-bar__break">//</div>
+                    <div class="effort-bar__remaining" style="width: {{ summary.effort_chart_data.remainder_display_percent }}%;">
+                        {{ "{:,}".format(summary.total_space) }}
+                    </div>
+                    {% endif %}
                 </div>
-                <div class="metric-card metric-card--muted">
-                    <div class="metric-label">Coverage</div>
-                    <div class="metric-value">{{ format_percent(summary.coverage_percent) }}</div>
+                <div class="effort-scale">
+                    <span>Explored</span>
+                    <span>Full space</span>
                 </div>
             </div>
+            {% endif %}
         </div>
 
         <div class="dse-box">
-            <h3>Execution Context</h3>
-            <div class="context-list">
-                <div><span class="label">GPU Family</span><span class="value">{{ summary.gpu_arch_family or "unknown" }}</span></div>
-                <div><span class="label">GPU Label</span><span class="value">{{ summary.gpu_arch_label or "unknown" }}</span></div>
-                <div><span class="label">GPUs Per Node</span><span class="value">{{ summary.gpus_per_node or "unknown" }}</span></div>
-                <div><span class="label">Nodes</span><span class="value">{{ summary.num_nodes or "unknown" }}</span></div>
-                <div><span class="label">Step Success / Failure</span><span class="value">{{ summary.success_count }} / {{ summary.failure_count }}</span></div>
-                <div><span class="label">Average Step Runtime</span><span class="value">{{ format_duration(summary.avg_step_duration_sec) }}</span></div>
-                <div><span class="label">Observed Runtime</span><span class="value">{{ format_duration(summary.total_runtime_sec) }}</span></div>
-                <div><span class="label">Projected Full-Space Runtime</span><span class="value">{{ format_duration(summary.projected_runtime_sec) }}</span></div>
-            </div>
-        </div>
-
-        <div class="dse-box">
-            <h3>Best Step</h3>
-            <div class="context-list">
-                <div><span class="label">Best Step</span><span class="value">{{ summary.best_step }}</span></div>
-                <div><span class="label">Best Reward</span><span class="value">{{ format_float(summary.best_reward, 4) }}</span></div>
-                <div><span class="label">Best Observation</span><span class="value">{{ summary.best_observation_display }}</span></div>
-                <div><span class="label">Run Folder</span><span class="value"><a href="{{ summary.output_root_rel_path }}">open</a></span></div>
-            </div>
-            <div class="best-link-list">
-                {% if summary.best_config_rel_path %}<a href="{{ summary.best_config_rel_path }}">Best Test TOML</a>{% endif %}
-                {% if summary.analysis_rel_path %}<a href="{{ summary.analysis_rel_path }}">BO Analysis</a>{% endif %}
+            <div class="section-topline">
+                <h3>Best Config</h3>
+                <div class="best-config-actions">
+                    {% if summary.best_config_rel_path %}<a href="{{ summary.best_config_rel_path }}">Best Test TOML</a>{% endif %}
+                    {% if summary.analysis_rel_path %}<a href="{{ summary.analysis_rel_path }}">BO Analysis</a>{% endif %}
+                    {% if summary.best_config_toml %}<button type="button" class="action-button js-copy-config" data-copy-target="best-config-text-{{ loop.index0 }}">Copy TOML</button>{% endif %}
+                </div>
             </div>
             {% if summary.best_config_toml %}
             <details class="best-config-preview">
                 <summary>Show best config TOML</summary>
-                <pre>{{ summary.best_config_toml }}</pre>
+                <pre id="best-config-text-{{ loop.index0 }}">{{ summary.best_config_toml }}</pre>
             </details>
             {% endif %}
         </div>
 
         <div class="dse-box">
             <h3>Exploration Space</h3>
-            <p class="small-note">Each row shows the allowed values for a swept parameter and the selected best value.</p>
             <table class="space-table">
                 <thead>
                     <tr>
                         <th>Parameter</th>
                         <th>Allowed Values</th>
-                        <th>Best</th>
                     </tr>
                 </thead>
                 <tbody>
                     {% for row in summary.parameter_rows %}
                     <tr>
                         <td>{{ row.name }}</td>
-                        <td>{{ row.values | join(", ") }}</td>
-                        <td><span class="best-value">{{ row.best_value }}</span></td>
+                        <td>
+                            <div class="value-cloud">
+                                {% for value in row.values %}
+                                <span class="value-pill {% if value == row.best_value %}value-pill--selected{% endif %}">{{ value }}</span>
+                                {% endfor %}
+                            </div>
+                        </td>
                     </tr>
                     {% endfor %}
                 </tbody>
@@ -449,7 +588,7 @@
                     ></canvas>
                 </div>
                 <script type="application/json" id="reward-chart-data-{{ loop.index0 }}">{{ summary.reward_chart_data | tojson }}</script>
-                <p class="chart-fallback">Interactive chart unavailable. Step count, best reward, and summary metrics remain available above.</p>
+                <p class="chart-fallback">Interactive chart unavailable. Step count and summary metrics remain available above.</p>
                 <noscript><p class="chart-fallback">JavaScript is disabled. Numeric report details remain available without charts.</p></noscript>
             {% else %}
                 <p>No reward data available.</p>
@@ -458,31 +597,73 @@
     </section>
     {% endfor %}
 
-<table>
-    <tr>
-        <th>Test</th>
-        <th>Description</th>
-        <th>Results</th>
-        {% if report_items | selectattr('nodes') | first is not none %}
-          <th>Nodes</th>
-        {% endif %}
-    </tr>
-    {% for item in report_items %}
-    <tr>
-        <td>{{ item.name }}</td>
-        <td>{{ item.description }}</td>
-        {% if item.logs_path %}
-            <td><a href="{{ item.logs_path }}">logs</a></td>
-        {% else %}
-            <td>no logs</td>
-        {% endif %}
-        {% if item.nodes is not none %}
-            <td>{{ item.nodes }}</td>
-        {% else %}
-            <td>no nodes information</td>
-        {% endif %}
-    </tr>
-    {% endfor %}
-</table>
-
+    <div class="dse-box">
+        <h3>All Steps</h3>
+        <table class="steps-table">
+            <thead>
+                <tr>
+                    <th>Case</th>
+                    <th>Status</th>
+                    <th>Results</th>
+                    <th>Nodes</th>
+                </tr>
+            </thead>
+            <tbody>
+                {% for item in report_items %}
+                <tr>
+                    <td>{{ item.name }}</td>
+                    <td>
+                        {% if item.status_text %}
+                            <span class="status-pill status-pill--{{ item.status_class }}">{{ item.status_text }}</span>
+                        {% else %}
+                            unknown
+                        {% endif %}
+                    </td>
+                    <td>
+                        {% if item.logs_path %}
+                            <a href="{{ item.logs_path }}">logs</a>
+                        {% else %}
+                            no logs
+                        {% endif %}
+                    </td>
+                    <td>
+                        {% if item.nodes is not none %}
+                            {{ item.nodes.slurm.node_list }}
+                        {% else %}
+                            no nodes information
+                        {% endif %}
+                    </td>
+                </tr>
+                {% endfor %}
+            </tbody>
+        </table>
+    </div>
+{% else %}
+    <table>
+        <tr>
+            <th>Test</th>
+            <th>Description</th>
+            <th>Results</th>
+            {% if report_items | selectattr('nodes') | first is not none %}
+              <th>Nodes</th>
+            {% endif %}
+        </tr>
+        {% for item in report_items %}
+        <tr>
+            <td>{{ item.name }}</td>
+            <td>{{ item.description }}</td>
+            {% if item.logs_path %}
+                <td><a href="{{ item.logs_path }}">logs</a></td>
+            {% else %}
+                <td>no logs</td>
+            {% endif %}
+            {% if item.nodes is not none %}
+                <td>{{ item.nodes }}</td>
+            {% else %}
+                <td>no nodes information</td>
+            {% endif %}
+        </tr>
+        {% endfor %}
+    </table>
+{% endif %}
 {% endblock %}
diff --git a/tests/test_reporter.py b/tests/test_reporter.py
index 64bb97b7c..d1f0c977e 100644
--- a/tests/test_reporter.py
+++ b/tests/test_reporter.py
@@ -424,6 +424,8 @@ def test_report_item_from_test_runs_includes_logs_and_metadata(
     assert items[0].logs_path == f"./{benchmark_tr.name}/0"
     assert items[0].nodes is not None
     assert items[0].nodes.slurm.node_list == slurm_metadata.slurm.node_list
+    assert items[0].status_text == "FAILED"
+    assert items[0].status_class == "failed"
 
 
 def test_report_order() -> None:
@@ -442,17 +444,13 @@ def test_dse_summary_and_best_config_artifacts(slurm_system: SlurmSystem, slurm_
     assert summary.total_space == 8
     assert summary.executed_steps == 3
     assert summary.skipped_steps == 5
-    assert summary.coverage_percent == pytest.approx(37.5)
     assert summary.best_step == 2
     assert summary.best_reward == pytest.approx(3.0)
-    assert summary.best_observation_display == "1.2"
     assert summary.avg_step_duration_sec == pytest.approx(20.0)
     assert summary.total_runtime_sec == pytest.approx(60.0)
-    assert summary.projected_runtime_sec == pytest.approx(160.0)
     assert summary.saved_runtime_sec == pytest.approx(100.0)
     assert summary.saved_gpu_hours == pytest.approx((100.0 / 3600.0) * 16)
     assert summary.estimated_saved_cost_usd == pytest.approx((summary.saved_gpu_hours or 0) * 4.5)
-    assert summary.gpu_arch_family == "H100"
     assert summary.analysis_rel_path is not None
     assert summary.best_config_rel_path == f"./{dse_tr.name}/0/{dse_tr.name}.toml"
     assert summary.reward_chart_data is not None
@@ -460,6 +458,8 @@ def test_dse_summary_and_best_config_artifacts(slurm_system: SlurmSystem, slurm_
     assert summary.reward_chart_data["rewards"] == pytest.approx([1.5, 3.0, 2.0])
     assert summary.reward_chart_data["running_best"] == pytest.approx([1.5, 3.0, 3.0])
     assert summary.reward_chart_data["observations"] == ["2.5", "1.2", "1.8"]
+    assert summary.effort_chart_data is not None
+    assert summary.effort_chart_data["explored_ratio"] == pytest.approx(3 / 8)
 
     best_values = {row.name: row.best_value for row in summary.parameter_rows}
     assert best_values["nthreads"] == "2"
@@ -498,16 +498,26 @@ def test_dse_generate_scenario_report_renders_html(
     html = report_path.read_text()
     assert "cdn.jsdelivr.net/npm/chart.js" in html
     assert "Saved GPU-Hours" in html
+    assert "Search Space" in html
+    assert "Explored Steps" in html
+    assert "DSE Savings" in html
     assert "Reward Over Steps" in html
     assert "Best Test TOML" in html
     assert "Show best config TOML" in html
+    assert "Copy TOML" in html
     assert "BO Analysis" in html
+    assert "All Steps" in html
     assert "dse-report.toml" in html
     assert "js-reward-chart" in html
     assert "chart-shell" in html
-    assert "dse-section-grid" not in html
+    assert 'class="value-pill value-pill--selected"' in html
+    assert "Execution Context" not in html
     assert "Exploration Mix" not in html
-    assert "37.50%" in html
+    assert "Skipped" not in html
+    assert "Coverage" not in html
+    assert "GPU Family" not in html
+    assert "<th>Best</th>" not in html
+    assert "status-pill--passed" in html
     assert "1m 40s" in html
 
 
@@ -531,5 +541,4 @@ def test_unknown_gpu_family_omits_estimated_cost(
     dse_tr = _create_dse_report_fixture(slurm_system, slurm_metadata, gpu_name="Mystery GPU")
     _reporter, summaries = _build_dse_summaries(slurm_system, dse_tr)
 
-    assert summaries[0].gpu_arch_family is None
     assert summaries[0].estimated_saved_cost_usd is None

From d36b0e276f76a0c6e8c89fa281c02ada30f104e5 Mon Sep 17 00:00:00 2001
From: Ivan Podkidyshev <ipodkidyshev@nvidia.com>
Date: Tue, 24 Mar 2026 14:30:00 +0100
Subject: [PATCH 06/30] cleaner look of the report

---
 src/cloudai/report_generator/status_report.py |  14 +-
 src/cloudai/util/general-report.jinja2        | 248 ++++++++++--------
 tests/test_reporter.py                        |   4 +
 3 files changed, 148 insertions(+), 118 deletions(-)

diff --git a/src/cloudai/report_generator/status_report.py b/src/cloudai/report_generator/status_report.py
index 15e929d7e..763feedb5 100644
--- a/src/cloudai/report_generator/status_report.py
+++ b/src/cloudai/report_generator/status_report.py
@@ -128,12 +128,11 @@ def _build_effort_chart_data(executed_steps: int, total_space: int) -> dict[str,
         return None
 
     explored_ratio = min(max(executed_steps / total_space, 0.0), 1.0)
-    explored_display_percent = 100.0 if explored_ratio >= 1.0 else min(max(explored_ratio * 100.0, 14.0), 62.0)
-
     return {
         "explored_ratio": explored_ratio,
-        "explored_display_percent": explored_display_percent,
-        "remainder_display_percent": max(100.0 - explored_display_percent, 0.0),
+        "labels": ["Explored", "Full Space"],
+        "values": [executed_steps, total_space],
+        "use_log_scale": total_space / max(executed_steps, 1) >= 20,
     }
 
 
@@ -248,7 +247,6 @@ class DSESummary:
     avg_step_duration_sec: float | None
     total_runtime_sec: float | None
     saved_runtime_sec: float | None
-    success_count: int
     failure_count: int
     gpu_arch_label: str | None
     saved_gpu_hours: float | None
@@ -270,7 +268,7 @@ def display_name(self) -> str:
     def status_text(self) -> str:
         if self.failure_count == 0:
             return "PASSED"
-        if self.success_count == 0:
+        if self.failure_count == self.executed_steps:
             return "FAILED"
         return "PARTIAL"
 
@@ -421,8 +419,7 @@ def _build_iteration_summary(
             else None
         )
 
-        success_count = sum(1 for step in steps if step.is_successful)
-        failure_count = len(steps) - success_count
+        failure_count = sum(1 for step in steps if not step.is_successful)
         best_action = best_step_data.action
         parameter_rows = [
             DSEParameterRow(
@@ -448,7 +445,6 @@ def _build_iteration_summary(
             avg_step_duration_sec=avg_step_duration_sec,
             total_runtime_sec=total_runtime_sec,
             saved_runtime_sec=saved_runtime_sec,
-            success_count=success_count,
             failure_count=failure_count,
             gpu_arch_label=gpu_arch_label,
             saved_gpu_hours=saved_gpu_hours,
diff --git a/src/cloudai/util/general-report.jinja2 b/src/cloudai/util/general-report.jinja2
index 30f4025ef..aac379eab 100644
--- a/src/cloudai/util/general-report.jinja2
+++ b/src/cloudai/util/general-report.jinja2
@@ -78,11 +78,21 @@
         color: var(--nv-muted);
         font-size: 0.95rem;
     }
-    .summary-stat-grid {
+    .overview-layout {
         display: grid;
-        grid-template-columns: repeat(auto-fit, minmax(170px, 1fr));
+        grid-template-columns: minmax(0, 1fr) minmax(320px, 0.92fr);
+        gap: 1rem;
+        align-items: stretch;
+    }
+    .overview-left {
+        display: flex;
+        flex-direction: column;
+        gap: 0.9rem;
+    }
+    .summary-stat-grid {
+        display: flex;
+        flex-direction: column;
         gap: 0.9rem;
-        margin-bottom: 1rem;
     }
     .metric-card {
         padding: 1rem 1.05rem;
@@ -116,10 +126,9 @@
         letter-spacing: -0.03em;
     }
     .context-strip {
-        display: grid;
-        grid-template-columns: repeat(auto-fit, minmax(180px, 1fr));
-        gap: 0.8rem 1rem;
-        margin-bottom: 1rem;
+        display: flex;
+        flex-direction: column;
+        gap: 0.8rem;
     }
     .context-item {
         padding: 0.85rem 0.95rem;
@@ -139,6 +148,9 @@
         font-weight: 650;
     }
     .effort-block {
+        display: flex;
+        flex-direction: column;
+        height: 100%;
         padding: 1rem 1.05rem;
         border-radius: var(--radius-md);
         border: 1px solid rgba(118, 185, 0, 0.22);
@@ -159,59 +171,19 @@
         color: var(--nv-muted);
         font-size: 0.92rem;
     }
-    .effort-bar {
-        display: flex;
-        align-items: stretch;
-        width: 100%;
-        min-height: 56px;
-        margin: 0.7rem 0 0.6rem;
-        overflow: hidden;
-        border-radius: 999px;
+    .effort-chart-shell {
+        position: relative;
+        flex: 1;
+        min-height: 360px;
+        margin-top: 0.6rem;
+        border-radius: var(--radius-md);
         border: 1px solid rgba(17, 17, 17, 0.08);
-        background: rgba(255, 255, 255, 0.86);
-    }
-    .effort-bar__explored {
-        display: flex;
-        align-items: center;
-        justify-content: center;
-        min-width: 86px;
-        background: linear-gradient(90deg, var(--nv-green), var(--nv-green-bright));
-        color: #ffffff;
-        font-weight: 700;
-        font-size: 0.9rem;
-    }
-    .effort-bar__break {
-        display: flex;
-        align-items: center;
-        justify-content: center;
-        width: 62px;
-        color: var(--nv-muted);
-        font-weight: 900;
-        letter-spacing: 0.08em;
-        background:
-            repeating-linear-gradient(
-                -55deg,
-                rgba(17, 17, 17, 0.06),
-                rgba(17, 17, 17, 0.06) 6px,
-                rgba(255, 255, 255, 0.75) 6px,
-                rgba(255, 255, 255, 0.75) 12px
-            );
-    }
-    .effort-bar__remaining {
-        display: flex;
-        align-items: center;
-        justify-content: flex-end;
-        padding-right: 1rem;
-        color: var(--nv-muted);
-        font-weight: 700;
-        background: rgba(17, 17, 17, 0.08);
+        background: rgba(255, 255, 255, 0.88);
+        padding: 0.85rem;
     }
-    .effort-scale {
-        display: flex;
-        justify-content: space-between;
-        gap: 1rem;
-        color: var(--nv-muted);
-        font-size: 0.9rem;
+    .effort-chart-shell canvas {
+        width: 100% !important;
+        height: 100% !important;
     }
     .dse-box {
         margin-top: 1.15rem;
@@ -338,12 +310,9 @@
         .metric-value {
             font-size: 1.35rem;
         }
-        .context-strip {
+        .overview-layout {
             grid-template-columns: 1fr;
         }
-        .effort-bar__break {
-            width: 46px;
-        }
     }
 </style>
 {% if dse_summaries %}
@@ -459,6 +428,64 @@
             });
             canvas.parentElement.classList.add("is-enhanced");
         });
+
+        const effortCanvases = document.querySelectorAll(".js-effort-chart");
+        effortCanvases.forEach((canvas) => {
+            const dataNode = document.getElementById(canvas.dataset.chartDataId);
+            if (!dataNode) {
+                return;
+            }
+            const chartData = JSON.parse(dataNode.textContent);
+            new Chart(canvas, {
+                type: "bar",
+                data: {
+                    labels: chartData.labels,
+                    datasets: [
+                        {
+                            data: chartData.values,
+                            backgroundColor: ["#76b900", "rgba(57, 66, 78, 0.24)"],
+                            borderColor: ["#76b900", "rgba(57, 66, 78, 0.50)"],
+                            borderWidth: 1,
+                            borderRadius: 14,
+                            maxBarThickness: 90
+                        }
+                    ]
+                },
+                options: {
+                    responsive: true,
+                    maintainAspectRatio: false,
+                    plugins: {
+                        legend: {
+                            display: false
+                        },
+                        tooltip: {
+                            callbacks: {
+                                label: function (context) {
+                                    return context.raw.toLocaleString();
+                                }
+                            }
+                        }
+                    },
+                    scales: {
+                        x: {
+                            grid: {
+                                display: false
+                            }
+                        },
+                        y: {
+                            type: chartData.use_log_scale ? "logarithmic" : "linear",
+                            beginAtZero: !chartData.use_log_scale,
+                            ticks: {
+                                callback: function (value) {
+                                    return Number(value).toLocaleString();
+                                }
+                            }
+                        }
+                    }
+                }
+            });
+            canvas.parentElement.classList.add("is-enhanced");
+        });
     });
 </script>
 {% endif %}
@@ -478,59 +505,62 @@
             </div>
             <p class="overview-description">{{ summary.description }}</p>
 
-            <div class="summary-stat-grid">
-                <div class="metric-card metric-card--neutral">
-                    <div class="metric-label">Search Space</div>
-                    <div class="metric-value">{{ "{:,}".format(summary.total_space) }}</div>
-                </div>
-                <div class="metric-card metric-card--neutral">
-                    <div class="metric-label">Explored Steps</div>
-                    <div class="metric-value">{{ "{:,}".format(summary.executed_steps) }}</div>
-                </div>
-                <div class="metric-card metric-card--hero">
-                    <div class="metric-label">Saved Time</div>
-                    <div class="metric-value">{{ format_duration(summary.saved_runtime_sec) }}</div>
-                </div>
-                <div class="metric-card metric-card--hero">
-                    <div class="metric-label">Saved GPU-Hours</div>
-                    <div class="metric-value">{{ format_float(summary.saved_gpu_hours, 2) }}</div>
-                </div>
-                <div class="metric-card metric-card--hero">
-                    <div class="metric-label">Estimated $ Saved</div>
-                    <div class="metric-value">{{ format_money(summary.estimated_saved_cost_usd) }}</div>
-                </div>
-            </div>
-
-            <div class="context-strip">
-                <div class="context-item"><span class="label">GPU Label</span><span class="value">{{ summary.gpu_arch_label or "unknown" }}</span></div>
-                <div class="context-item"><span class="label">Step Success / Failure</span><span class="value">{{ summary.success_count }} / {{ summary.failure_count }}</span></div>
-                <div class="context-item"><span class="label">Average Step Runtime</span><span class="value">{{ format_duration(summary.avg_step_duration_sec) }}</span></div>
-                <div class="context-item"><span class="label">Observed Runtime</span><span class="value">{{ format_duration(summary.total_runtime_sec) }}</span></div>
-            </div>
+            <div class="overview-layout">
+                <div class="overview-left">
+                    <div class="summary-stat-grid">
+                        <div class="metric-card metric-card--neutral">
+                            <div class="metric-label">Search Space</div>
+                            <div class="metric-value">{{ "{:,}".format(summary.total_space) }}</div>
+                        </div>
+                        <div class="metric-card metric-card--neutral">
+                            <div class="metric-label">Explored Steps</div>
+                            <div class="metric-value">{{ "{:,}".format(summary.executed_steps) }}</div>
+                        </div>
+                        <div class="metric-card metric-card--hero">
+                            <div class="metric-label">Saved Time</div>
+                            <div class="metric-value">{{ format_duration(summary.saved_runtime_sec) }}</div>
+                        </div>
+                        <div class="metric-card metric-card--hero">
+                            <div class="metric-label">Saved GPU-Hours</div>
+                            <div class="metric-value">{{ format_float(summary.saved_gpu_hours, 2) }}</div>
+                        </div>
+                        <div class="metric-card metric-card--hero">
+                            <div class="metric-label">Estimated $ Saved</div>
+                            <div class="metric-value">{{ format_money(summary.estimated_saved_cost_usd) }}</div>
+                        </div>
+                    </div>
 
-            {% if summary.effort_chart_data %}
-            <div class="effort-block">
-                <div class="effort-head">
-                    <h3>DSE Savings</h3>
-                    <span class="effort-caption">Axis break emphasizes the gap between explored trials and full-space search.</span>
+                    <div class="context-strip">
+                        <div class="context-item"><span class="label">GPU Label</span><span class="value">{{ summary.gpu_arch_label or "unknown" }}</span></div>
+                        <div class="context-item"><span class="label">Average Step Runtime</span><span class="value">{{ format_duration(summary.avg_step_duration_sec) }}</span></div>
+                        <div class="context-item"><span class="label">Observed Runtime</span><span class="value">{{ format_duration(summary.total_runtime_sec) }}</span></div>
+                    </div>
                 </div>
-                <div class="effort-bar">
-                    <div class="effort-bar__explored" style="width: {{ summary.effort_chart_data.explored_display_percent }}%;">
-                        {{ "{:,}".format(summary.executed_steps) }}
+
+                {% if summary.effort_chart_data %}
+                <div class="effort-block">
+                    <div class="effort-head">
+                        <h3>DSE Savings</h3>
+                        <span class="effort-caption">
+                            {% if summary.effort_chart_data.use_log_scale %}
+                            Log scale keeps both bars legible across a large search-space gap.
+                            {% else %}
+                            Side-by-side comparison of explored steps versus full search space.
+                            {% endif %}
+                        </span>
                     </div>
-                    {% if summary.skipped_steps > 0 %}
-                    <div class="effort-bar__break">//</div>
-                    <div class="effort-bar__remaining" style="width: {{ summary.effort_chart_data.remainder_display_percent }}%;">
-                        {{ "{:,}".format(summary.total_space) }}
+                    <div class="effort-chart-shell chart-shell">
+                        <canvas
+                            class="js-effort-chart"
+                            data-chart-data-id="effort-chart-data-{{ loop.index0 }}"
+                            aria-label="Bar chart comparing explored steps and full search space"
+                        ></canvas>
                     </div>
-                    {% endif %}
-                </div>
-                <div class="effort-scale">
-                    <span>Explored</span>
-                    <span>Full space</span>
+                    <script type="application/json" id="effort-chart-data-{{ loop.index0 }}">{{ summary.effort_chart_data | tojson }}</script>
+                    <p class="chart-fallback">Interactive chart unavailable. The totals above remain available as text.</p>
                 </div>
+                {% endif %}
             </div>
-            {% endif %}
         </div>
 
         <div class="dse-box">
diff --git a/tests/test_reporter.py b/tests/test_reporter.py
index d1f0c977e..fb6712596 100644
--- a/tests/test_reporter.py
+++ b/tests/test_reporter.py
@@ -460,6 +460,9 @@ def test_dse_summary_and_best_config_artifacts(slurm_system: SlurmSystem, slurm_
     assert summary.reward_chart_data["observations"] == ["2.5", "1.2", "1.8"]
     assert summary.effort_chart_data is not None
     assert summary.effort_chart_data["explored_ratio"] == pytest.approx(3 / 8)
+    assert summary.effort_chart_data["labels"] == ["Explored", "Full Space"]
+    assert summary.effort_chart_data["values"] == [3, 8]
+    assert summary.effort_chart_data["use_log_scale"] is False
 
     best_values = {row.name: row.best_value for row in summary.parameter_rows}
     assert best_values["nthreads"] == "2"
@@ -508,6 +511,7 @@ def test_dse_generate_scenario_report_renders_html(
     assert "BO Analysis" in html
     assert "All Steps" in html
     assert "dse-report.toml" in html
+    assert "js-effort-chart" in html
     assert "js-reward-chart" in html
     assert "chart-shell" in html
     assert 'class="value-pill value-pill--selected"' in html

From 0c7267ab55a42f404b02ee8110634435db12e398 Mon Sep 17 00:00:00 2001
From: Ivan Podkidyshev <ipodkidyshev@nvidia.com>
Date: Tue, 24 Mar 2026 14:58:52 +0100
Subject: [PATCH 07/30] almost there

---
 src/cloudai/report_generator/status_report.py |   6 --
 src/cloudai/reporter.py                       |   2 +-
 src/cloudai/util/general-report.jinja2        | 100 ++++++++++--------
 tests/test_reporter.py                        |   4 +-
 4 files changed, 58 insertions(+), 54 deletions(-)

diff --git a/src/cloudai/report_generator/status_report.py b/src/cloudai/report_generator/status_report.py
index 763feedb5..2fcc2aa0a 100644
--- a/src/cloudai/report_generator/status_report.py
+++ b/src/cloudai/report_generator/status_report.py
@@ -258,12 +258,6 @@ class DSESummary:
     reward_chart_data: dict[str, list[Any]] | None = None
     effort_chart_data: dict[str, Any] | None = None
 
-    @property
-    def display_name(self) -> str:
-        if self.iteration == 0:
-            return self.name
-        return f"{self.name} iter={self.iteration}"
-
     @property
     def status_text(self) -> str:
         if self.failure_count == 0:
diff --git a/src/cloudai/reporter.py b/src/cloudai/reporter.py
index 56ee450ae..6f6111bfe 100644
--- a/src/cloudai/reporter.py
+++ b/src/cloudai/reporter.py
@@ -125,7 +125,7 @@ def _add_dse_rows(dse_summaries: list[DSESummary], table: Table):
             ]
             if summary.best_config_rel_path:
                 details.append(summary.best_config_rel_path)
-            table.add_row(summary.display_name, f"[bold]{summary.status_style}[/bold]", "\n".join(details))
+            table.add_row(summary.description, f"[bold]{summary.status_style}[/bold]", "\n".join(details))
 
     def _add_standard_rows(self, table: Table):
         for tr in self.trs:
diff --git a/src/cloudai/util/general-report.jinja2 b/src/cloudai/util/general-report.jinja2
index aac379eab..fbbf01be5 100644
--- a/src/cloudai/util/general-report.jinja2
+++ b/src/cloudai/util/general-report.jinja2
@@ -87,7 +87,18 @@
     .overview-left {
         display: flex;
         flex-direction: column;
-        gap: 0.9rem;
+        gap: 1rem;
+    }
+    .impact-stat-grid,
+    .context-strip {
+        display: grid;
+        gap: 0.8rem;
+    }
+    .impact-stat-grid {
+        grid-template-columns: repeat(2, minmax(0, 1fr));
+    }
+    .context-strip {
+        grid-template-columns: repeat(2, minmax(0, 1fr));
     }
     .summary-stat-grid {
         display: flex;
@@ -95,7 +106,7 @@
         gap: 0.9rem;
     }
     .metric-card {
-        padding: 1rem 1.05rem;
+        padding: 0.95rem 1rem;
         border-radius: var(--radius-md);
         border: 1px solid rgba(17, 17, 17, 0.06);
         background: rgba(255, 255, 255, 0.96);
@@ -120,16 +131,11 @@
     .metric-value {
         margin-top: 0.3rem;
         color: var(--nv-ink);
-        font-size: 1.6rem;
+        font-size: 1.45rem;
         font-weight: 750;
         line-height: 1.1;
         letter-spacing: -0.03em;
     }
-    .context-strip {
-        display: flex;
-        flex-direction: column;
-        gap: 0.8rem;
-    }
     .context-item {
         padding: 0.85rem 0.95rem;
         border-radius: var(--radius-md);
@@ -173,8 +179,9 @@
     }
     .effort-chart-shell {
         position: relative;
-        flex: 1;
+        flex: none;
         min-height: 360px;
+        height: 360px;
         margin-top: 0.6rem;
         border-radius: var(--radius-md);
         border: 1px solid rgba(17, 17, 17, 0.08);
@@ -182,8 +189,8 @@
         padding: 0.85rem;
     }
     .effort-chart-shell canvas {
+        display: block;
         width: 100% !important;
-        height: 100% !important;
     }
     .dse-box {
         margin-top: 1.15rem;
@@ -280,10 +287,11 @@
     .chart-shell {
         position: relative;
         min-height: 260px;
+        height: 320px;
     }
     .chart-shell canvas {
+        display: block;
         width: 100% !important;
-        height: 100% !important;
     }
     .chart-fallback {
         margin-top: 0.75rem;
@@ -313,6 +321,17 @@
         .overview-layout {
             grid-template-columns: 1fr;
         }
+        .impact-stat-grid,
+        .context-strip {
+            grid-template-columns: 1fr;
+        }
+        .chart-shell {
+            height: 280px;
+        }
+        .effort-chart-shell {
+            height: 280px;
+            min-height: 280px;
+        }
     }
 </style>
 {% if dse_summaries %}
@@ -497,55 +516,48 @@
     <section class="dse-summary">
         <div class="overview-board">
             <div class="overview-topline">
-                <h2>{{ summary.display_name }}</h2>
+                <h2>DSE: overview</h2>
                 <span class="status-pill status-pill--{{ summary.status_text | lower }}">{{ summary.status_text }}</span>
-                <span class="overview-summary-line">
-                    {{ "{:,}".format(summary.executed_steps) }} explored out of {{ "{:,}".format(summary.total_space) }} combinations
-                </span>
             </div>
-            <p class="overview-description">{{ summary.description }}</p>
 
             <div class="overview-layout">
                 <div class="overview-left">
                     <div class="summary-stat-grid">
-                        <div class="metric-card metric-card--neutral">
-                            <div class="metric-label">Search Space</div>
-                            <div class="metric-value">{{ "{:,}".format(summary.total_space) }}</div>
-                        </div>
-                        <div class="metric-card metric-card--neutral">
-                            <div class="metric-label">Explored Steps</div>
-                            <div class="metric-value">{{ "{:,}".format(summary.executed_steps) }}</div>
-                        </div>
-                        <div class="metric-card metric-card--hero">
-                            <div class="metric-label">Saved Time</div>
-                            <div class="metric-value">{{ format_duration(summary.saved_runtime_sec) }}</div>
-                        </div>
-                        <div class="metric-card metric-card--hero">
-                            <div class="metric-label">Saved GPU-Hours</div>
-                            <div class="metric-value">{{ format_float(summary.saved_gpu_hours, 2) }}</div>
+                        <div class="impact-stat-grid">
+                            <div class="metric-card metric-card--hero">
+                                <div class="metric-label">Saved Time</div>
+                                <div class="metric-value">{{ format_duration(summary.saved_runtime_sec) }}</div>
+                            </div>
+                            <div class="metric-card metric-card--hero">
+                                <div class="metric-label">Saved GPU-Hours</div>
+                                <div class="metric-value">{{ format_float(summary.saved_gpu_hours, 2) }}</div>
+                            </div>
                         </div>
-                        <div class="metric-card metric-card--hero">
-                            <div class="metric-label">Estimated $ Saved</div>
-                            <div class="metric-value">{{ format_money(summary.estimated_saved_cost_usd) }}</div>
+
+                        <div class="impact-stat-grid">
+                            <div class="metric-card metric-card--hero">
+                                <div class="metric-label">Estimated Savings</div>
+                                <div class="metric-value">{{ format_money(summary.estimated_saved_cost_usd) }}</div>
+                            </div>
+                            <div class="context-item"><span class="label">GPU Label</span><span class="value">{{ summary.gpu_arch_label or "unknown" }}</span></div>
                         </div>
-                    </div>
 
-                    <div class="context-strip">
-                        <div class="context-item"><span class="label">GPU Label</span><span class="value">{{ summary.gpu_arch_label or "unknown" }}</span></div>
-                        <div class="context-item"><span class="label">Average Step Runtime</span><span class="value">{{ format_duration(summary.avg_step_duration_sec) }}</span></div>
-                        <div class="context-item"><span class="label">Observed Runtime</span><span class="value">{{ format_duration(summary.total_runtime_sec) }}</span></div>
+                        <div class="context-strip">
+                            <div class="context-item"><span class="label">Average Step Runtime</span><span class="value">{{ format_duration(summary.avg_step_duration_sec) }}</span></div>
+                            <div class="context-item"><span class="label">Observed Runtime</span><span class="value">{{ format_duration(summary.total_runtime_sec) }}</span></div>
+                        </div>
                     </div>
                 </div>
 
                 {% if summary.effort_chart_data %}
                 <div class="effort-block">
                     <div class="effort-head">
-                        <h3>DSE Savings</h3>
+                        <h3>DSE Savings: {{ "{:,}".format(summary.executed_steps) }} vs {{ "{:,}".format(summary.total_space) }}</h3>
                         <span class="effort-caption">
                             {% if summary.effort_chart_data.use_log_scale %}
                             Log scale keeps both bars legible across a large search-space gap.
                             {% else %}
-                            Side-by-side comparison of explored steps versus full search space.
+                            Compared with the full search space.
                             {% endif %}
                         </span>
                     </div>
@@ -565,7 +577,7 @@
 
         <div class="dse-box">
             <div class="section-topline">
-                <h3>Best Config</h3>
+                <h3>DSE: Best Config</h3>
                 <div class="best-config-actions">
                     {% if summary.best_config_rel_path %}<a href="{{ summary.best_config_rel_path }}">Best Test TOML</a>{% endif %}
                     {% if summary.analysis_rel_path %}<a href="{{ summary.analysis_rel_path }}">BO Analysis</a>{% endif %}
@@ -581,7 +593,7 @@
         </div>
 
         <div class="dse-box">
-            <h3>Exploration Space</h3>
+            <h3>DSE: Exploration Space</h3>
             <table class="space-table">
                 <thead>
                     <tr>
@@ -607,7 +619,7 @@
         </div>
 
         <div class="dse-box viz-card">
-            <h3>Reward Over Steps</h3>
+            <h3>DSE: Reward Over Steps</h3>
             <p class="small-note">Observed reward is shown as the dark line; the NVIDIA-green dashed line tracks the best-so-far trajectory.</p>
             {% if summary.reward_chart_data %}
                 <div class="chart-shell">
diff --git a/tests/test_reporter.py b/tests/test_reporter.py
index fb6712596..0adb7064e 100644
--- a/tests/test_reporter.py
+++ b/tests/test_reporter.py
@@ -501,9 +501,7 @@ def test_dse_generate_scenario_report_renders_html(
     html = report_path.read_text()
     assert "cdn.jsdelivr.net/npm/chart.js" in html
     assert "Saved GPU-Hours" in html
-    assert "Search Space" in html
-    assert "Explored Steps" in html
-    assert "DSE Savings" in html
+    assert "DSE Savings: 3 vs 8" in html
     assert "Reward Over Steps" in html
     assert "Best Test TOML" in html
     assert "Show best config TOML" in html

From 86741ef8341af145401f061134b3acbe694222d2 Mon Sep 17 00:00:00 2001
From: Ivan Podkidyshev <ipodkidyshev@nvidia.com>
Date: Tue, 24 Mar 2026 16:24:30 +0100
Subject: [PATCH 08/30] we are somewhere

---
 src/cloudai/report_generator/status_report.py |   8 +-
 src/cloudai/util/general-report.jinja2        | 168 ++++++++++--------
 tests/test_reporter.py                        |  17 +-
 3 files changed, 118 insertions(+), 75 deletions(-)

diff --git a/src/cloudai/report_generator/status_report.py b/src/cloudai/report_generator/status_report.py
index 2fcc2aa0a..0ad04cc68 100644
--- a/src/cloudai/report_generator/status_report.py
+++ b/src/cloudai/report_generator/status_report.py
@@ -19,6 +19,7 @@
 import ast
 import contextlib
 import logging
+import math
 from dataclasses import dataclass, field
 from pathlib import Path
 from typing import Any
@@ -128,11 +129,16 @@ def _build_effort_chart_data(executed_steps: int, total_space: int) -> dict[str,
         return None
 
     explored_ratio = min(max(executed_steps / total_space, 0.0), 1.0)
+    show_break = total_space / max(executed_steps, 1) >= 12
+    explored_height_pct = max(12.0, math.sqrt(explored_ratio) * 100) if explored_ratio > 0 else 12.0
+    explored_height_pct = min(explored_height_pct, 100.0)
     return {
         "explored_ratio": explored_ratio,
         "labels": ["Explored", "Full Space"],
         "values": [executed_steps, total_space],
-        "use_log_scale": total_space / max(executed_steps, 1) >= 20,
+        "explored_height_pct": explored_height_pct,
+        "full_height_pct": 100.0,
+        "show_break": show_break,
     }
 
 
diff --git a/src/cloudai/util/general-report.jinja2 b/src/cloudai/util/general-report.jinja2
index fbbf01be5..b6bbe52f1 100644
--- a/src/cloudai/util/general-report.jinja2
+++ b/src/cloudai/util/general-report.jinja2
@@ -178,7 +178,9 @@
         font-size: 0.92rem;
     }
     .effort-chart-shell {
-        position: relative;
+        display: flex;
+        align-items: stretch;
+        justify-content: center;
         flex: none;
         min-height: 360px;
         height: 360px;
@@ -186,11 +188,74 @@
         border-radius: var(--radius-md);
         border: 1px solid rgba(17, 17, 17, 0.08);
         background: rgba(255, 255, 255, 0.88);
-        padding: 0.85rem;
+        padding: 1rem 1.1rem 0.9rem;
     }
-    .effort-chart-shell canvas {
-        display: block;
-        width: 100% !important;
+    .effort-compare {
+        display: grid;
+        grid-template-columns: repeat(2, minmax(120px, 1fr));
+        gap: 1.25rem;
+        align-items: end;
+        width: 100%;
+    }
+    .effort-bar-card {
+        display: flex;
+        flex-direction: column;
+        align-items: center;
+        gap: 0.65rem;
+        min-width: 0;
+    }
+    .effort-value {
+        color: var(--nv-ink);
+        font-size: 1.1rem;
+        font-weight: 750;
+        letter-spacing: -0.02em;
+    }
+    .effort-stage {
+        position: relative;
+        display: flex;
+        align-items: end;
+        justify-content: center;
+        width: 100%;
+        height: 238px;
+        padding: 0 0.9rem;
+        border-bottom: 1px solid rgba(17, 17, 17, 0.10);
+    }
+    .effort-bar {
+        position: relative;
+        width: min(96px, 100%);
+        min-width: 54px;
+        border-radius: 18px 18px 6px 6px;
+        border: 1px solid rgba(17, 17, 17, 0.08);
+        box-shadow: inset 0 1px 0 rgba(255, 255, 255, 0.65);
+    }
+    .effort-bar--explored {
+        background: linear-gradient(180deg, var(--nv-green-bright), var(--nv-green));
+        border-color: rgba(118, 185, 0, 0.38);
+    }
+    .effort-bar--full {
+        background: linear-gradient(180deg, rgba(57, 66, 78, 0.30), rgba(57, 66, 78, 0.18));
+        border-color: rgba(57, 66, 78, 0.18);
+    }
+    .effort-bar--break::after {
+        content: "";
+        position: absolute;
+        left: 8%;
+        right: 8%;
+        top: 42%;
+        height: 18px;
+        border-top: 4px solid rgba(255, 255, 255, 0.98);
+        border-bottom: 4px solid rgba(255, 255, 255, 0.98);
+        background: rgba(255, 255, 255, 0.98);
+        clip-path: polygon(0 28%, 22% 0, 50% 28%, 78% 0, 100% 28%, 100% 72%, 78% 100%, 50% 72%, 22% 100%, 0 72%);
+        box-shadow: 0 0 0 1px rgba(57, 66, 78, 0.04);
+    }
+    .effort-bar-label {
+        color: var(--nv-muted);
+        font-size: 0.8rem;
+        font-weight: 700;
+        letter-spacing: 0.08em;
+        text-transform: uppercase;
+        text-align: center;
     }
     .dse-box {
         margin-top: 1.15rem;
@@ -332,6 +397,9 @@
             height: 280px;
             min-height: 280px;
         }
+        .effort-stage {
+            height: 180px;
+        }
     }
 </style>
 {% if dse_summaries %}
@@ -448,63 +516,6 @@
             canvas.parentElement.classList.add("is-enhanced");
         });
 
-        const effortCanvases = document.querySelectorAll(".js-effort-chart");
-        effortCanvases.forEach((canvas) => {
-            const dataNode = document.getElementById(canvas.dataset.chartDataId);
-            if (!dataNode) {
-                return;
-            }
-            const chartData = JSON.parse(dataNode.textContent);
-            new Chart(canvas, {
-                type: "bar",
-                data: {
-                    labels: chartData.labels,
-                    datasets: [
-                        {
-                            data: chartData.values,
-                            backgroundColor: ["#76b900", "rgba(57, 66, 78, 0.24)"],
-                            borderColor: ["#76b900", "rgba(57, 66, 78, 0.50)"],
-                            borderWidth: 1,
-                            borderRadius: 14,
-                            maxBarThickness: 90
-                        }
-                    ]
-                },
-                options: {
-                    responsive: true,
-                    maintainAspectRatio: false,
-                    plugins: {
-                        legend: {
-                            display: false
-                        },
-                        tooltip: {
-                            callbacks: {
-                                label: function (context) {
-                                    return context.raw.toLocaleString();
-                                }
-                            }
-                        }
-                    },
-                    scales: {
-                        x: {
-                            grid: {
-                                display: false
-                            }
-                        },
-                        y: {
-                            type: chartData.use_log_scale ? "logarithmic" : "linear",
-                            beginAtZero: !chartData.use_log_scale,
-                            ticks: {
-                                callback: function (value) {
-                                    return Number(value).toLocaleString();
-                                }
-                            }
-                        }
-                    }
-                }
-            });
-            canvas.parentElement.classList.add("is-enhanced");
-        });
     });
 </script>
 {% endif %}
@@ -554,22 +565,37 @@
                     <div class="effort-head">
                         <h3>DSE Savings: {{ "{:,}".format(summary.executed_steps) }} vs {{ "{:,}".format(summary.total_space) }}</h3>
                         <span class="effort-caption">
-                            {% if summary.effort_chart_data.use_log_scale %}
-                            Log scale keeps both bars legible across a large search-space gap.
+                            {% if summary.effort_chart_data.show_break %}
+                            Full-space bar uses a visual break so both bars stay readable.
                             {% else %}
                             Compared with the full search space.
                             {% endif %}
                         </span>
                     </div>
                     <div class="effort-chart-shell chart-shell">
-                        <canvas
-                            class="js-effort-chart"
-                            data-chart-data-id="effort-chart-data-{{ loop.index0 }}"
-                            aria-label="Bar chart comparing explored steps and full search space"
-                        ></canvas>
+                            <div class="effort-compare" aria-label="Bar chart comparing explored steps and full search space">
+                                <div class="effort-bar-card">
+                                    <div class="effort-value">{{ "{:,}".format(summary.effort_chart_data["values"][0]) }}</div>
+                                    <div class="effort-stage">
+                                        <div
+                                            class="effort-bar effort-bar--explored"
+                                            style="height: {{ "%.2f"|format(summary.effort_chart_data["explored_height_pct"]) }}%;"
+                                        ></div>
+                                    </div>
+                                    <div class="effort-bar-label">{{ summary.effort_chart_data["labels"][0] }}</div>
+                                </div>
+                                <div class="effort-bar-card">
+                                    <div class="effort-value">{{ "{:,}".format(summary.effort_chart_data["values"][1]) }}</div>
+                                    <div class="effort-stage">
+                                        <div
+                                            class="effort-bar effort-bar--full {% if summary.effort_chart_data["show_break"] %}effort-bar--break{% endif %}"
+                                            style="height: {{ "%.2f"|format(summary.effort_chart_data["full_height_pct"]) }}%;"
+                                        ></div>
+                                    </div>
+                                    <div class="effort-bar-label">{{ summary.effort_chart_data["labels"][1] }}</div>
+                                </div>
+                            </div>
                     </div>
-                    <script type="application/json" id="effort-chart-data-{{ loop.index0 }}">{{ summary.effort_chart_data | tojson }}</script>
-                    <p class="chart-fallback">Interactive chart unavailable. The totals above remain available as text.</p>
                 </div>
                 {% endif %}
             </div>
diff --git a/tests/test_reporter.py b/tests/test_reporter.py
index 0adb7064e..cada48daf 100644
--- a/tests/test_reporter.py
+++ b/tests/test_reporter.py
@@ -26,7 +26,7 @@
 from cloudai.cli.handlers import generate_reports
 from cloudai.core import CommandGenStrategy, Registry, Reporter, System
 from cloudai.models.scenario import ReportConfig, TestRunDetails
-from cloudai.report_generator.status_report import DSEReportBuilder, ReportItem, load_system_metadata
+from cloudai.report_generator.status_report import DSEReportBuilder, ReportItem, _build_effort_chart_data, load_system_metadata
 from cloudai.reporter import PerTestReporter, StatusReporter, TarballReporter
 from cloudai.systems.slurm.slurm_metadata import (
     MetadataCUDA,
@@ -462,7 +462,9 @@ def test_dse_summary_and_best_config_artifacts(slurm_system: SlurmSystem, slurm_
     assert summary.effort_chart_data["explored_ratio"] == pytest.approx(3 / 8)
     assert summary.effort_chart_data["labels"] == ["Explored", "Full Space"]
     assert summary.effort_chart_data["values"] == [3, 8]
-    assert summary.effort_chart_data["use_log_scale"] is False
+    assert summary.effort_chart_data["explored_height_pct"] == pytest.approx((3 / 8) ** 0.5 * 100)
+    assert summary.effort_chart_data["full_height_pct"] == pytest.approx(100.0)
+    assert summary.effort_chart_data["show_break"] is False
 
     best_values = {row.name: row.best_value for row in summary.parameter_rows}
     assert best_values["nthreads"] == "2"
@@ -509,7 +511,8 @@ def test_dse_generate_scenario_report_renders_html(
     assert "BO Analysis" in html
     assert "All Steps" in html
     assert "dse-report.toml" in html
-    assert "js-effort-chart" in html
+    assert "effort-bar--explored" in html
+    assert "effort-bar--full" in html
     assert "js-reward-chart" in html
     assert "chart-shell" in html
     assert 'class="value-pill value-pill--selected"' in html
@@ -523,6 +526,14 @@ def test_dse_generate_scenario_report_renders_html(
     assert "1m 40s" in html
 
 
+def test_effort_chart_uses_break_for_large_search_space() -> None:
+    chart_data = _build_effort_chart_data(30, 100_000)
+
+    assert chart_data is not None
+    assert chart_data["show_break"] is True
+    assert chart_data["explored_height_pct"] == pytest.approx(12.0)
+
+
 def test_dse_console_summary_is_compact(
     slurm_system: SlurmSystem, slurm_metadata: SlurmSystemMetadata, caplog: pytest.LogCaptureFixture
 ) -> None:

From 9d335ba980ee7d8490c4d5ff4bc43557f47ce124 Mon Sep 17 00:00:00 2001
From: Ivan Podkidyshev <ipodkidyshev@nvidia.com>
Date: Tue, 24 Mar 2026 17:35:52 +0100
Subject: [PATCH 09/30] looks nice

---
 src/cloudai/report_generator/status_report.py |  15 +-
 src/cloudai/util/general-report.jinja2        | 162 +++++++-----------
 tests/test_reporter.py                        |  22 +--
 3 files changed, 76 insertions(+), 123 deletions(-)

diff --git a/src/cloudai/report_generator/status_report.py b/src/cloudai/report_generator/status_report.py
index 0ad04cc68..d54e1535b 100644
--- a/src/cloudai/report_generator/status_report.py
+++ b/src/cloudai/report_generator/status_report.py
@@ -19,7 +19,6 @@
 import ast
 import contextlib
 import logging
-import math
 from dataclasses import dataclass, field
 from pathlib import Path
 from typing import Any
@@ -129,16 +128,14 @@ def _build_effort_chart_data(executed_steps: int, total_space: int) -> dict[str,
         return None
 
     explored_ratio = min(max(executed_steps / total_space, 0.0), 1.0)
-    show_break = total_space / max(executed_steps, 1) >= 12
-    explored_height_pct = max(12.0, math.sqrt(explored_ratio) * 100) if explored_ratio > 0 else 12.0
-    explored_height_pct = min(explored_height_pct, 100.0)
+    reduction_factor = total_space / max(executed_steps, 1)
     return {
         "explored_ratio": explored_ratio,
-        "labels": ["Explored", "Full Space"],
-        "values": [executed_steps, total_space],
-        "explored_height_pct": explored_height_pct,
-        "full_height_pct": 100.0,
-        "show_break": show_break,
+        "explored_percent": explored_ratio * 100.0,
+        "avoided_percent": max((1.0 - explored_ratio) * 100.0, 0.0),
+        "reduction_factor": reduction_factor,
+        "executed_steps": executed_steps,
+        "total_space": total_space,
     }
 
 
diff --git a/src/cloudai/util/general-report.jinja2 b/src/cloudai/util/general-report.jinja2
index b6bbe52f1..7eacebb80 100644
--- a/src/cloudai/util/general-report.jinja2
+++ b/src/cloudai/util/general-report.jinja2
@@ -82,7 +82,7 @@
         display: grid;
         grid-template-columns: minmax(0, 1fr) minmax(320px, 0.92fr);
         gap: 1rem;
-        align-items: stretch;
+        align-items: start;
     }
     .overview-left {
         display: flex;
@@ -116,6 +116,15 @@
         border-color: rgba(118, 185, 0, 0.34);
         box-shadow: inset 0 4px 0 var(--nv-green);
     }
+    .metric-card--accent {
+        background: linear-gradient(180deg, rgba(118, 185, 0, 0.20), rgba(255, 255, 255, 0.99));
+        border-color: rgba(118, 185, 0, 0.42);
+        box-shadow: inset 0 4px 0 var(--nv-green-bright);
+    }
+    .metric-card--accent .metric-value {
+        font-size: 1.8rem;
+        color: var(--nv-green-strong);
+    }
     .metric-card--neutral {
         background: rgba(255, 255, 255, 0.94);
     }
@@ -142,6 +151,9 @@
         border: 1px solid rgba(17, 17, 17, 0.06);
         background: rgba(255, 255, 255, 0.90);
     }
+    .context-item--runtime {
+        background: rgba(249, 251, 247, 0.96);
+    }
     .label {
         color: var(--nv-muted);
         display: block;
@@ -156,7 +168,7 @@
     .effort-block {
         display: flex;
         flex-direction: column;
-        height: 100%;
+        align-self: start;
         padding: 1rem 1.05rem;
         border-radius: var(--radius-md);
         border: 1px solid rgba(118, 185, 0, 0.22);
@@ -179,83 +191,45 @@
     }
     .effort-chart-shell {
         display: flex;
-        align-items: stretch;
-        justify-content: center;
+        align-items: center;
         flex: none;
-        min-height: 360px;
-        height: 360px;
-        margin-top: 0.6rem;
+        min-height: 0;
+        height: auto;
+        margin-top: 0.45rem;
         border-radius: var(--radius-md);
         border: 1px solid rgba(17, 17, 17, 0.08);
         background: rgba(255, 255, 255, 0.88);
-        padding: 1rem 1.1rem 0.9rem;
-    }
-    .effort-compare {
-        display: grid;
-        grid-template-columns: repeat(2, minmax(120px, 1fr));
-        gap: 1.25rem;
-        align-items: end;
-        width: 100%;
+        padding: 0.95rem 1rem;
     }
-    .effort-bar-card {
+    .efficiency-panel {
         display: flex;
         flex-direction: column;
-        align-items: center;
-        gap: 0.65rem;
-        min-width: 0;
-    }
-    .effort-value {
-        color: var(--nv-ink);
-        font-size: 1.1rem;
-        font-weight: 750;
-        letter-spacing: -0.02em;
-    }
-    .effort-stage {
-        position: relative;
-        display: flex;
-        align-items: end;
-        justify-content: center;
+        gap: 0.8rem;
         width: 100%;
-        height: 238px;
-        padding: 0 0.9rem;
-        border-bottom: 1px solid rgba(17, 17, 17, 0.10);
     }
-    .effort-bar {
-        position: relative;
-        width: min(96px, 100%);
-        min-width: 54px;
-        border-radius: 18px 18px 6px 6px;
-        border: 1px solid rgba(17, 17, 17, 0.08);
-        box-shadow: inset 0 1px 0 rgba(255, 255, 255, 0.65);
+    .efficiency-steps {
+        color: var(--nv-muted);
+        font-size: 0.95rem;
+        font-weight: 650;
     }
-    .effort-bar--explored {
-        background: linear-gradient(180deg, var(--nv-green-bright), var(--nv-green));
-        border-color: rgba(118, 185, 0, 0.38);
+    .efficiency-callout {
+        display: flex;
+        align-items: baseline;
+        gap: 0.55rem;
+        flex-wrap: wrap;
+        padding: 0;
     }
-    .effort-bar--full {
-        background: linear-gradient(180deg, rgba(57, 66, 78, 0.30), rgba(57, 66, 78, 0.18));
-        border-color: rgba(57, 66, 78, 0.18);
+    .efficiency-ratio {
+        color: var(--nv-green-strong);
+        font-size: 2rem;
+        font-weight: 800;
+        letter-spacing: -0.04em;
     }
-    .effort-bar--break::after {
-        content: "";
-        position: absolute;
-        left: 8%;
-        right: 8%;
-        top: 42%;
-        height: 18px;
-        border-top: 4px solid rgba(255, 255, 255, 0.98);
-        border-bottom: 4px solid rgba(255, 255, 255, 0.98);
-        background: rgba(255, 255, 255, 0.98);
-        clip-path: polygon(0 28%, 22% 0, 50% 28%, 78% 0, 100% 28%, 100% 72%, 78% 100%, 50% 72%, 22% 100%, 0 72%);
-        box-shadow: 0 0 0 1px rgba(57, 66, 78, 0.04);
-    }
-    .effort-bar-label {
-        color: var(--nv-muted);
-        font-size: 0.8rem;
-        font-weight: 700;
-        letter-spacing: 0.08em;
-        text-transform: uppercase;
-        text-align: center;
+    .efficiency-ratio-note {
+        color: var(--nv-ink);
+        font-size: 1rem;
+        font-weight: 650;
+        line-height: 1.2;
     }
     .dse-box {
         margin-top: 1.15rem;
@@ -394,11 +368,12 @@
             height: 280px;
         }
         .effort-chart-shell {
-            height: 280px;
-            min-height: 280px;
+            height: auto;
+            min-height: 0;
         }
-        .effort-stage {
-            height: 180px;
+        .metric-card--accent .metric-value,
+        .efficiency-ratio {
+            font-size: 1.45rem;
         }
     }
 </style>
@@ -546,7 +521,7 @@
                         </div>
 
                         <div class="impact-stat-grid">
-                            <div class="metric-card metric-card--hero">
+                            <div class="metric-card metric-card--accent">
                                 <div class="metric-label">Estimated Savings</div>
                                 <div class="metric-value">{{ format_money(summary.estimated_saved_cost_usd) }}</div>
                             </div>
@@ -554,8 +529,8 @@
                         </div>
 
                         <div class="context-strip">
-                            <div class="context-item"><span class="label">Average Step Runtime</span><span class="value">{{ format_duration(summary.avg_step_duration_sec) }}</span></div>
-                            <div class="context-item"><span class="label">Observed Runtime</span><span class="value">{{ format_duration(summary.total_runtime_sec) }}</span></div>
+                            <div class="context-item context-item--runtime"><span class="label">Avg Step Runtime</span><span class="value">{{ format_duration(summary.avg_step_duration_sec) }}</span></div>
+                            <div class="context-item context-item--runtime"><span class="label">Observed Runtime</span><span class="value">{{ format_duration(summary.total_runtime_sec) }}</span></div>
                         </div>
                     </div>
                 </div>
@@ -563,38 +538,17 @@
                 {% if summary.effort_chart_data %}
                 <div class="effort-block">
                     <div class="effort-head">
-                        <h3>DSE Savings: {{ "{:,}".format(summary.executed_steps) }} vs {{ "{:,}".format(summary.total_space) }}</h3>
-                        <span class="effort-caption">
-                            {% if summary.effort_chart_data.show_break %}
-                            Full-space bar uses a visual break so both bars stay readable.
-                            {% else %}
-                            Compared with the full search space.
-                            {% endif %}
-                        </span>
+                        <h3>Exploration Efficiency</h3>
+                        <span class="effort-caption">{{ format_percent(summary.effort_chart_data["explored_percent"]) }} explored</span>
                     </div>
-                    <div class="effort-chart-shell chart-shell">
-                            <div class="effort-compare" aria-label="Bar chart comparing explored steps and full search space">
-                                <div class="effort-bar-card">
-                                    <div class="effort-value">{{ "{:,}".format(summary.effort_chart_data["values"][0]) }}</div>
-                                    <div class="effort-stage">
-                                        <div
-                                            class="effort-bar effort-bar--explored"
-                                            style="height: {{ "%.2f"|format(summary.effort_chart_data["explored_height_pct"]) }}%;"
-                                        ></div>
-                                    </div>
-                                    <div class="effort-bar-label">{{ summary.effort_chart_data["labels"][0] }}</div>
-                                </div>
-                                <div class="effort-bar-card">
-                                    <div class="effort-value">{{ "{:,}".format(summary.effort_chart_data["values"][1]) }}</div>
-                                    <div class="effort-stage">
-                                        <div
-                                            class="effort-bar effort-bar--full {% if summary.effort_chart_data["show_break"] %}effort-bar--break{% endif %}"
-                                            style="height: {{ "%.2f"|format(summary.effort_chart_data["full_height_pct"]) }}%;"
-                                        ></div>
-                                    </div>
-                                    <div class="effort-bar-label">{{ summary.effort_chart_data["labels"][1] }}</div>
-                                </div>
+                    <div class="effort-chart-shell">
+                        <div class="efficiency-panel" aria-label="Efficiency summary for explored steps versus total search space">
+                            <div class="efficiency-callout">
+                                <div class="efficiency-ratio">~{{ format_float(summary.effort_chart_data["reduction_factor"], 1) }}x</div>
+                                <div class="efficiency-ratio-note">reduction in search space</div>
                             </div>
+                            <div class="efficiency-steps">{{ "{:,}".format(summary.effort_chart_data["executed_steps"]) }} / {{ "{:,}".format(summary.effort_chart_data["total_space"]) }} steps</div>
+                        </div>
                     </div>
                 </div>
                 {% endif %}
diff --git a/tests/test_reporter.py b/tests/test_reporter.py
index cada48daf..25e067aa3 100644
--- a/tests/test_reporter.py
+++ b/tests/test_reporter.py
@@ -460,11 +460,11 @@ def test_dse_summary_and_best_config_artifacts(slurm_system: SlurmSystem, slurm_
     assert summary.reward_chart_data["observations"] == ["2.5", "1.2", "1.8"]
     assert summary.effort_chart_data is not None
     assert summary.effort_chart_data["explored_ratio"] == pytest.approx(3 / 8)
-    assert summary.effort_chart_data["labels"] == ["Explored", "Full Space"]
-    assert summary.effort_chart_data["values"] == [3, 8]
-    assert summary.effort_chart_data["explored_height_pct"] == pytest.approx((3 / 8) ** 0.5 * 100)
-    assert summary.effort_chart_data["full_height_pct"] == pytest.approx(100.0)
-    assert summary.effort_chart_data["show_break"] is False
+    assert summary.effort_chart_data["explored_percent"] == pytest.approx(37.5)
+    assert summary.effort_chart_data["avoided_percent"] == pytest.approx(62.5)
+    assert summary.effort_chart_data["reduction_factor"] == pytest.approx(8 / 3)
+    assert summary.effort_chart_data["executed_steps"] == 3
+    assert summary.effort_chart_data["total_space"] == 8
 
     best_values = {row.name: row.best_value for row in summary.parameter_rows}
     assert best_values["nthreads"] == "2"
@@ -503,7 +503,9 @@ def test_dse_generate_scenario_report_renders_html(
     html = report_path.read_text()
     assert "cdn.jsdelivr.net/npm/chart.js" in html
     assert "Saved GPU-Hours" in html
-    assert "DSE Savings: 3 vs 8" in html
+    assert "Exploration Efficiency" in html
+    assert "3 / 8 steps" in html
+    assert "reduction in search space" in html
     assert "Reward Over Steps" in html
     assert "Best Test TOML" in html
     assert "Show best config TOML" in html
@@ -511,8 +513,7 @@ def test_dse_generate_scenario_report_renders_html(
     assert "BO Analysis" in html
     assert "All Steps" in html
     assert "dse-report.toml" in html
-    assert "effort-bar--explored" in html
-    assert "effort-bar--full" in html
+    assert "efficiency-ratio" in html
     assert "js-reward-chart" in html
     assert "chart-shell" in html
     assert 'class="value-pill value-pill--selected"' in html
@@ -530,8 +531,9 @@ def test_effort_chart_uses_break_for_large_search_space() -> None:
     chart_data = _build_effort_chart_data(30, 100_000)
 
     assert chart_data is not None
-    assert chart_data["show_break"] is True
-    assert chart_data["explored_height_pct"] == pytest.approx(12.0)
+    assert chart_data["explored_percent"] == pytest.approx(0.03)
+    assert chart_data["avoided_percent"] == pytest.approx(99.97)
+    assert chart_data["reduction_factor"] == pytest.approx(100_000 / 30)
 
 
 def test_dse_console_summary_is_compact(

From dbd7ebec7d8cd0a19ba063708eb9be23f0c382f2 Mon Sep 17 00:00:00 2001
From: Ivan Podkidyshev <ipodkidyshev@nvidia.com>
Date: Tue, 24 Mar 2026 17:49:10 +0100
Subject: [PATCH 10/30] top block looks solid

---
 src/cloudai/util/general-report.jinja2 | 67 +++++++++++++++-----------
 tests/test_reporter.py                 |  4 +-
 2 files changed, 40 insertions(+), 31 deletions(-)

diff --git a/src/cloudai/util/general-report.jinja2 b/src/cloudai/util/general-report.jinja2
index 7eacebb80..bc3c3ff03 100644
--- a/src/cloudai/util/general-report.jinja2
+++ b/src/cloudai/util/general-report.jinja2
@@ -190,16 +190,7 @@
         font-size: 0.92rem;
     }
     .effort-chart-shell {
-        display: flex;
-        align-items: center;
-        flex: none;
-        min-height: 0;
-        height: auto;
         margin-top: 0.45rem;
-        border-radius: var(--radius-md);
-        border: 1px solid rgba(17, 17, 17, 0.08);
-        background: rgba(255, 255, 255, 0.88);
-        padding: 0.95rem 1rem;
     }
     .efficiency-panel {
         display: flex;
@@ -273,14 +264,34 @@
         overflow: hidden;
         border: 1px solid rgba(118, 185, 0, 0.22);
         background: linear-gradient(180deg, #ffffff, #f8fbf4);
+        margin-top: 1.15rem;
     }
     .best-config-preview summary {
+        display: flex;
+        align-items: center;
+        justify-content: space-between;
+        gap: 0.75rem;
+        list-style: none;
         cursor: pointer;
         padding: 0.9rem 1rem;
         color: var(--nv-ink);
         font-weight: 650;
         background: linear-gradient(180deg, rgba(118, 185, 0, 0.18), rgba(255, 255, 255, 0.72));
     }
+    .best-config-preview summary::-webkit-details-marker {
+        display: none;
+    }
+    .best-config-summary-title {
+        display: inline-flex;
+        align-items: center;
+        gap: 0.55rem;
+    }
+    .best-config-summary-actions {
+        display: inline-flex;
+        align-items: center;
+        gap: 0.6rem;
+        margin-left: auto;
+    }
     .best-config-preview pre {
         max-height: 360px;
         overflow: auto;
@@ -375,6 +386,13 @@
         .efficiency-ratio {
             font-size: 1.45rem;
         }
+        .best-config-preview summary {
+            align-items: flex-start;
+            flex-direction: column;
+        }
+        .best-config-summary-actions {
+            margin-left: 0;
+        }
     }
 </style>
 {% if dse_summaries %}
@@ -539,34 +557,27 @@
                 <div class="effort-block">
                     <div class="effort-head">
                         <h3>Exploration Efficiency</h3>
-                        <span class="effort-caption">{{ format_percent(summary.effort_chart_data["explored_percent"]) }} explored</span>
                     </div>
-                    <div class="effort-chart-shell">
-                        <div class="efficiency-panel" aria-label="Efficiency summary for explored steps versus total search space">
-                            <div class="efficiency-callout">
-                                <div class="efficiency-ratio">~{{ format_float(summary.effort_chart_data["reduction_factor"], 1) }}x</div>
-                                <div class="efficiency-ratio-note">reduction in search space</div>
-                            </div>
-                            <div class="efficiency-steps">{{ "{:,}".format(summary.effort_chart_data["executed_steps"]) }} / {{ "{:,}".format(summary.effort_chart_data["total_space"]) }} steps</div>
+                    <div class="efficiency-panel" aria-label="Efficiency summary for explored steps versus total search space">
+                        <div class="efficiency-callout">
+                            <div class="efficiency-ratio">~{{ format_float(summary.effort_chart_data["reduction_factor"], 1) }}x</div>
+                            <div class="efficiency-ratio-note">reduction in search space</div>
                         </div>
+                        <div class="efficiency-steps">{{ "{:,}".format(summary.effort_chart_data["executed_steps"]) }} / {{ "{:,}".format(summary.effort_chart_data["total_space"]) }} steps</div>
                     </div>
                 </div>
                 {% endif %}
             </div>
-        </div>
 
-        <div class="dse-box">
-            <div class="section-topline">
-                <h3>DSE: Best Config</h3>
-                <div class="best-config-actions">
-                    {% if summary.best_config_rel_path %}<a href="{{ summary.best_config_rel_path }}">Best Test TOML</a>{% endif %}
-                    {% if summary.analysis_rel_path %}<a href="{{ summary.analysis_rel_path }}">BO Analysis</a>{% endif %}
-                    {% if summary.best_config_toml %}<button type="button" class="action-button js-copy-config" data-copy-target="best-config-text-{{ loop.index0 }}">Copy TOML</button>{% endif %}
-                </div>
-            </div>
             {% if summary.best_config_toml %}
             <details class="best-config-preview">
-                <summary>Show best config TOML</summary>
+                <summary>
+                    <span class="best-config-summary-title">Best Config TOML</span>
+                    <span class="best-config-summary-actions">
+                        {% if summary.analysis_rel_path %}<a href="{{ summary.analysis_rel_path }}">BO Analysis</a>{% endif %}
+                        <button type="button" class="action-button js-copy-config" data-copy-target="best-config-text-{{ loop.index0 }}">Copy TOML</button>
+                    </span>
+                </summary>
                 <pre id="best-config-text-{{ loop.index0 }}">{{ summary.best_config_toml }}</pre>
             </details>
             {% endif %}
diff --git a/tests/test_reporter.py b/tests/test_reporter.py
index 25e067aa3..e3f3868e6 100644
--- a/tests/test_reporter.py
+++ b/tests/test_reporter.py
@@ -507,12 +507,10 @@ def test_dse_generate_scenario_report_renders_html(
     assert "3 / 8 steps" in html
     assert "reduction in search space" in html
     assert "Reward Over Steps" in html
-    assert "Best Test TOML" in html
-    assert "Show best config TOML" in html
+    assert "Best Config TOML" in html
     assert "Copy TOML" in html
     assert "BO Analysis" in html
     assert "All Steps" in html
-    assert "dse-report.toml" in html
     assert "efficiency-ratio" in html
     assert "js-reward-chart" in html
     assert "chart-shell" in html

From e93eb005487a889dc30e2d2b3bec773ca76df7ee Mon Sep 17 00:00:00 2001
From: Ivan Podkidyshev <ipodkidyshev@nvidia.com>
Date: Tue, 24 Mar 2026 18:10:55 +0100
Subject: [PATCH 11/30] graph looks good

---
 src/cloudai/report_generator/status_report.py | 14 +------
 src/cloudai/util/general-report.jinja2        | 41 +++++++++----------
 tests/test_reporter.py                        |  2 +-
 3 files changed, 22 insertions(+), 35 deletions(-)

diff --git a/src/cloudai/report_generator/status_report.py b/src/cloudai/report_generator/status_report.py
index d54e1535b..032d1e1de 100644
--- a/src/cloudai/report_generator/status_report.py
+++ b/src/cloudai/report_generator/status_report.py
@@ -100,26 +100,16 @@ def _normalize_gpu_family(gpu_name: str | None) -> str | None:
     return None
 
 
-def _build_running_best(points: list[tuple[int, float]]) -> list[tuple[int, float]]:
-    running_best: list[tuple[int, float]] = []
-    best = None
-    for step, reward in points:
-        best = reward if best is None else max(best, reward)
-        running_best.append((step, best))
-    return running_best
-
-
 def _build_reward_chart_data(steps: list["DSEStepData"]) -> dict[str, list[Any]] | None:
     if not steps:
         return None
 
-    reward_points = [(step.step, step.reward) for step in steps]
-    running_best = _build_running_best(reward_points)
+    best_index = max(range(len(steps)), key=lambda idx: steps[idx].reward)
     return {
         "labels": [step.step for step in steps],
         "rewards": [step.reward for step in steps],
-        "running_best": [reward for _, reward in running_best],
         "observations": [step.observation_display for step in steps],
+        "best_index": best_index,
     }
 
 
diff --git a/src/cloudai/util/general-report.jinja2 b/src/cloudai/util/general-report.jinja2
index bc3c3ff03..ea1d6c1c8 100644
--- a/src/cloudai/util/general-report.jinja2
+++ b/src/cloudai/util/general-report.jinja2
@@ -435,6 +435,15 @@
                 return;
             }
             const chartData = JSON.parse(dataNode.textContent);
+            const pointBackgroundColors = chartData.rewards.map((_, idx) =>
+                idx === chartData.best_index ? "#76b900" : "#39424e"
+            );
+            const pointBorderColors = chartData.rewards.map((_, idx) =>
+                idx === chartData.best_index ? "#76b900" : "#39424e"
+            );
+            const pointRadii = chartData.rewards.map((_, idx) =>
+                idx === chartData.best_index ? 5 : 3
+            );
             new Chart(canvas, {
                 type: "line",
                 data: {
@@ -445,25 +454,13 @@
                             data: chartData.rewards,
                             borderColor: "#39424e",
                             backgroundColor: "rgba(57, 66, 78, 0.14)",
-                            pointBackgroundColor: "#39424e",
-                            pointRadius: 3,
-                            pointHoverRadius: 4,
+                            pointBackgroundColor: pointBackgroundColors,
+                            pointBorderColor: pointBorderColors,
+                            pointRadius: pointRadii,
+                            pointHoverRadius: 6,
                             borderWidth: 2,
                             tension: 0.25,
                             fill: true
-                        },
-                        {
-                            label: "Best so far",
-                            data: chartData.running_best,
-                            borderColor: "#76b900",
-                            backgroundColor: "rgba(118, 185, 0, 0.18)",
-                            pointBackgroundColor: "#76b900",
-                            pointRadius: 0,
-                            pointHoverRadius: 3,
-                            borderWidth: 3,
-                            tension: 0.18,
-                            borderDash: [8, 6],
-                            fill: false
                         }
                     ]
                 },
@@ -476,16 +473,17 @@
                     },
                     plugins: {
                         legend: {
-                            labels: {
-                                usePointStyle: true,
-                                boxWidth: 8
-                            }
+                            display: false
                         },
                         tooltip: {
                             callbacks: {
                                 afterBody: function (context) {
                                     const idx = context[0].dataIndex;
-                                    return "Observation: " + (chartData.observations[idx] || "n/a");
+                                    const lines = ["Observation: " + (chartData.observations[idx] || "n/a")];
+                                    if (idx === chartData.best_index) {
+                                        lines.push("Best step");
+                                    }
+                                    return lines;
                                 }
                             }
                         }
@@ -611,7 +609,6 @@
 
         <div class="dse-box viz-card">
             <h3>DSE: Reward Over Steps</h3>
-            <p class="small-note">Observed reward is shown as the dark line; the NVIDIA-green dashed line tracks the best-so-far trajectory.</p>
             {% if summary.reward_chart_data %}
                 <div class="chart-shell">
                     <canvas
diff --git a/tests/test_reporter.py b/tests/test_reporter.py
index e3f3868e6..a9fb6e5a0 100644
--- a/tests/test_reporter.py
+++ b/tests/test_reporter.py
@@ -456,8 +456,8 @@ def test_dse_summary_and_best_config_artifacts(slurm_system: SlurmSystem, slurm_
     assert summary.reward_chart_data is not None
     assert summary.reward_chart_data["labels"] == [1, 2, 3]
     assert summary.reward_chart_data["rewards"] == pytest.approx([1.5, 3.0, 2.0])
-    assert summary.reward_chart_data["running_best"] == pytest.approx([1.5, 3.0, 3.0])
     assert summary.reward_chart_data["observations"] == ["2.5", "1.2", "1.8"]
+    assert summary.reward_chart_data["best_index"] == 1
     assert summary.effort_chart_data is not None
     assert summary.effort_chart_data["explored_ratio"] == pytest.approx(3 / 8)
     assert summary.effort_chart_data["explored_percent"] == pytest.approx(37.5)

From a22100d88cb57d0e6ad0e2a6efc87a399762f360 Mon Sep 17 00:00:00 2001
From: Ivan Podkidyshev <ipodkidyshev@nvidia.com>
Date: Tue, 24 Mar 2026 18:15:29 +0100
Subject: [PATCH 12/30] better colors

---
 src/cloudai/util/general-report.jinja2 | 44 +++++++++++++-------------
 1 file changed, 22 insertions(+), 22 deletions(-)

diff --git a/src/cloudai/util/general-report.jinja2 b/src/cloudai/util/general-report.jinja2
index ea1d6c1c8..4162875c7 100644
--- a/src/cloudai/util/general-report.jinja2
+++ b/src/cloudai/util/general-report.jinja2
@@ -12,7 +12,7 @@
     .dse-box {
         border: 1px solid var(--nv-border);
         border-radius: var(--radius-lg);
-        background: linear-gradient(180deg, rgba(255, 255, 255, 0.98), rgba(247, 252, 233, 0.98));
+        background: rgba(255, 255, 255, 0.98);
         box-shadow: var(--nv-shadow);
     }
     .overview-board {
@@ -63,8 +63,8 @@
         letter-spacing: 0.06em;
     }
     .status-pill--passed {
-        background: rgba(118, 185, 0, 0.14);
-        border-color: rgba(118, 185, 0, 0.32);
+        background: rgba(118, 185, 0, 0.10);
+        border-color: rgba(118, 185, 0, 0.22);
     }
     .status-pill--partial {
         background: rgba(250, 204, 21, 0.16);
@@ -108,18 +108,18 @@
     .metric-card {
         padding: 0.95rem 1rem;
         border-radius: var(--radius-md);
-        border: 1px solid rgba(17, 17, 17, 0.06);
-        background: rgba(255, 255, 255, 0.96);
+        border: 1px solid rgba(17, 17, 17, 0.07);
+        background: #ffffff;
     }
     .metric-card--hero {
-        background: linear-gradient(180deg, rgba(118, 185, 0, 0.16), rgba(255, 255, 255, 0.98));
-        border-color: rgba(118, 185, 0, 0.34);
-        box-shadow: inset 0 4px 0 var(--nv-green);
+        background: linear-gradient(180deg, rgba(248, 251, 244, 1), rgba(255, 255, 255, 1));
+        border-color: rgba(118, 185, 0, 0.24);
+        box-shadow: inset 0 3px 0 rgba(118, 185, 0, 0.88);
     }
     .metric-card--accent {
-        background: linear-gradient(180deg, rgba(118, 185, 0, 0.20), rgba(255, 255, 255, 0.99));
-        border-color: rgba(118, 185, 0, 0.42);
-        box-shadow: inset 0 4px 0 var(--nv-green-bright);
+        background: linear-gradient(180deg, rgba(245, 250, 238, 1), rgba(255, 255, 255, 1));
+        border-color: rgba(118, 185, 0, 0.28);
+        box-shadow: inset 0 3px 0 rgba(118, 185, 0, 0.92);
     }
     .metric-card--accent .metric-value {
         font-size: 1.8rem;
@@ -148,11 +148,11 @@
     .context-item {
         padding: 0.85rem 0.95rem;
         border-radius: var(--radius-md);
-        border: 1px solid rgba(17, 17, 17, 0.06);
-        background: rgba(255, 255, 255, 0.90);
+        border: 1px solid rgba(17, 17, 17, 0.07);
+        background: #ffffff;
     }
     .context-item--runtime {
-        background: rgba(249, 251, 247, 0.96);
+        background: #fbfcfa;
     }
     .label {
         color: var(--nv-muted);
@@ -171,8 +171,8 @@
         align-self: start;
         padding: 1rem 1.05rem;
         border-radius: var(--radius-md);
-        border: 1px solid rgba(118, 185, 0, 0.22);
-        background: linear-gradient(180deg, rgba(118, 185, 0, 0.08), rgba(255, 255, 255, 0.92));
+        border: 1px solid rgba(17, 17, 17, 0.07);
+        background: linear-gradient(180deg, #fcfdfb, #ffffff);
     }
     .effort-head {
         display: flex;
@@ -262,8 +262,8 @@
     .best-config-preview {
         border-radius: var(--radius-sm);
         overflow: hidden;
-        border: 1px solid rgba(118, 185, 0, 0.22);
-        background: linear-gradient(180deg, #ffffff, #f8fbf4);
+        border: 1px solid rgba(17, 17, 17, 0.08);
+        background: #ffffff;
         margin-top: 1.15rem;
     }
     .best-config-preview summary {
@@ -276,7 +276,7 @@
         padding: 0.9rem 1rem;
         color: var(--nv-ink);
         font-weight: 650;
-        background: linear-gradient(180deg, rgba(118, 185, 0, 0.18), rgba(255, 255, 255, 0.72));
+        background: #fbfcfa;
     }
     .best-config-preview summary::-webkit-details-marker {
         display: none;
@@ -298,8 +298,8 @@
         margin: 0;
         padding: 1rem;
         color: #1f2933;
-        background: #fbfdf8;
-        border-top: 1px solid rgba(118, 185, 0, 0.16);
+        background: #ffffff;
+        border-top: 1px solid rgba(17, 17, 17, 0.06);
     }
     .space-table th,
     .steps-table th {
@@ -332,7 +332,7 @@
         margin-top: 0;
     }
     .viz-card {
-        background: linear-gradient(180deg, rgba(255, 255, 255, 0.98), rgba(247, 250, 243, 0.98));
+        background: rgba(255, 255, 255, 0.98);
     }
     .chart-shell {
         position: relative;

From 3dd3b4921ff548401ce09f199301156052acf71c Mon Sep 17 00:00:00 2001
From: Ivan Podkidyshev <ipodkidyshev@nvidia.com>
Date: Tue, 24 Mar 2026 18:33:25 +0100
Subject: [PATCH 13/30] support for multiple dse cases

---
 src/cloudai/report_generator/status_report.py |  4 +
 src/cloudai/reporter.py                       | 34 +++++++-
 src/cloudai/util/general-report.jinja2        | 87 +++++++++++++++++--
 tests/test_reporter.py                        | 33 ++++++-
 4 files changed, 149 insertions(+), 9 deletions(-)

diff --git a/src/cloudai/report_generator/status_report.py b/src/cloudai/report_generator/status_report.py
index 032d1e1de..3ce0c4943 100644
--- a/src/cloudai/report_generator/status_report.py
+++ b/src/cloudai/report_generator/status_report.py
@@ -175,12 +175,14 @@ def load_system_metadata(run_dir: Path, results_root: Path) -> _ReportSystemMeta
 class ReportItem:
     """Basic report item for general systems."""
 
+    group_name: str
     name: str
     description: str
     logs_path: str | None
     nodes: _ReportSystemMetadata | None
     status_text: str
     status_class: str
+    is_dse: bool
 
     @classmethod
     def from_test_runs(cls, test_runs: list[TestRun], results_root: Path) -> list["ReportItem"]:
@@ -190,12 +192,14 @@ def from_test_runs(cls, test_runs: list[TestRun], results_root: Path) -> list["R
             status_text = "PASSED" if tr_status.is_successful else "FAILED"
             report_items.append(
                 ReportItem(
+                    group_name=tr.name,
                     name=case_name(tr),
                     description=tr.test.description,
                     logs_path=f"./{tr.output_path.relative_to(results_root)}" if tr.output_path.exists() else None,
                     nodes=load_system_metadata(tr.output_path, results_root),
                     status_text=status_text,
                     status_class=status_text.lower(),
+                    is_dse=tr.is_dse_job,
                 )
             )
         return report_items
diff --git a/src/cloudai/reporter.py b/src/cloudai/reporter.py
index 6f6111bfe..cd76c6a95 100644
--- a/src/cloudai/reporter.py
+++ b/src/cloudai/reporter.py
@@ -17,6 +17,7 @@
 import contextlib
 import logging
 import tarfile
+from collections import defaultdict
 from pathlib import Path
 
 import jinja2
@@ -79,10 +80,16 @@ def to_html(self, dse_summaries: list[DSESummary]) -> None:
         template = jinja_env.get_template("general-report.jinja2")
 
         report_items = ReportItem.from_test_runs(self.trs, self.results_root)
+        dse_cases = self._build_dse_cases(dse_summaries, report_items)
+        dse_case_names = {case["name"] for case in dse_cases}
+        dse_report_items = [item for item in report_items if item.group_name in dse_case_names]
+        standard_report_items = [item for item in report_items if item.group_name not in dse_case_names]
         report = template.render(
             name=self.test_scenario.name,
-            report_items=report_items,
+            report_items=standard_report_items,
             dse_summaries=dse_summaries,
+            dse_cases=dse_cases,
+            dse_report_items=dse_report_items,
             format_duration=format_duration,
             format_float=format_float,
             format_percent=format_percent,
@@ -94,6 +101,31 @@ def to_html(self, dse_summaries: list[DSESummary]) -> None:
 
         logging.info(f"Generated scenario report at {report_path}")
 
+    def _build_dse_cases(self, dse_summaries: list[DSESummary], report_items: list[ReportItem]) -> list[dict[str, object]]:
+        summaries_by_name: dict[str, list[DSESummary]] = defaultdict(list)
+        for summary in dse_summaries:
+            summaries_by_name[summary.name].append(summary)
+
+        items_by_name: dict[str, list[ReportItem]] = defaultdict(list)
+        for item in report_items:
+            if item.is_dse:
+                items_by_name[item.group_name].append(item)
+
+        dse_case_names = []
+        for tr in self.test_scenario.test_runs:
+            if tr.is_dse_job and tr.name not in dse_case_names:
+                dse_case_names.append(tr.name)
+
+        return [
+            {
+                "name": case_name,
+                "summaries": summaries_by_name.get(case_name, []),
+                "report_items": items_by_name.get(case_name, []),
+            }
+            for case_name in dse_case_names
+            if summaries_by_name.get(case_name)
+        ]
+
     def to_console(self, dse_summaries: list[DSESummary]):
         if not self.trs:
             logging.debug("No test runs found, skipping summary.")
diff --git a/src/cloudai/util/general-report.jinja2 b/src/cloudai/util/general-report.jinja2
index 4162875c7..afbfa52bc 100644
--- a/src/cloudai/util/general-report.jinja2
+++ b/src/cloudai/util/general-report.jinja2
@@ -8,6 +8,41 @@
     .dse-summary {
         margin: 2rem 0 3rem;
     }
+    .dse-tabs {
+        margin: 1.25rem 0 2rem;
+    }
+    .dse-tab-list {
+        display: flex;
+        flex-wrap: wrap;
+        gap: 0.7rem;
+        margin-bottom: 1.15rem;
+    }
+    .dse-tab-button {
+        display: inline-flex;
+        align-items: center;
+        gap: 0.45rem;
+        padding: 0.58rem 0.95rem;
+        border-radius: 999px;
+        border: 1px solid rgba(17, 17, 17, 0.08);
+        background: #ffffff;
+        color: var(--nv-ink);
+        font-weight: 650;
+        cursor: pointer;
+    }
+    .dse-tab-button:hover {
+        background: #fbfcfa;
+    }
+    .dse-tab-button.is-active {
+        border-color: rgba(118, 185, 0, 0.28);
+        background: rgba(118, 185, 0, 0.10);
+        color: var(--nv-green-strong);
+    }
+    .dse-tab-panel {
+        display: none;
+    }
+    .dse-tab-panel.is-active {
+        display: block;
+    }
     .overview-board,
     .dse-box {
         border: 1px solid var(--nv-border);
@@ -420,6 +455,18 @@
             });
         });
 
+        document.querySelectorAll(".js-dse-tabs").forEach((root) => {
+            const buttons = root.querySelectorAll(".js-dse-tab-button");
+            const panels = root.querySelectorAll(".js-dse-tab-panel");
+            buttons.forEach((button) => {
+                button.addEventListener("click", function () {
+                    const target = button.dataset.tabTarget;
+                    buttons.forEach((candidate) => candidate.classList.toggle("is-active", candidate === button));
+                    panels.forEach((panel) => panel.classList.toggle("is-active", panel.dataset.tabPanel === target));
+                });
+            });
+        });
+
         if (typeof Chart === "undefined") {
             return;
         }
@@ -513,9 +560,29 @@
 {% endblock %}
 
 {% block content %}
-{% if dse_summaries %}
-    {% for summary in dse_summaries %}
-    <section class="dse-summary">
+{% if dse_cases %}
+    <section class="dse-tabs js-dse-tabs">
+        <div class="dse-tab-list" role="tablist" aria-label="DSE test cases">
+            {% for case in dse_cases %}
+            <button
+                type="button"
+                class="dse-tab-button js-dse-tab-button {% if loop.first %}is-active{% endif %}"
+                data-tab-target="dse-case-{{ loop.index0 }}"
+                role="tab"
+                aria-selected="{{ 'true' if loop.first else 'false' }}"
+            >
+                {{ case.name }}
+            </button>
+            {% endfor %}
+        </div>
+
+        {% for case in dse_cases %}
+        <div
+            class="dse-tab-panel js-dse-tab-panel {% if loop.first %}is-active{% endif %}"
+            data-tab-panel="dse-case-{{ loop.index0 }}"
+        >
+            {% for summary in case.summaries %}
+            <section class="dse-summary">
         <div class="overview-board">
             <div class="overview-topline">
                 <h2>DSE: overview</h2>
@@ -625,8 +692,14 @@
             {% endif %}
         </div>
     </section>
-    {% endfor %}
+            {% endfor %}
 
+        </div>
+        {% endfor %}
+    </section>
+{% endif %}
+
+{% if dse_report_items %}
     <div class="dse-box">
         <h3>All Steps</h3>
         <table class="steps-table">
@@ -639,7 +712,7 @@
                 </tr>
             </thead>
             <tbody>
-                {% for item in report_items %}
+                {% for item in dse_report_items %}
                 <tr>
                     <td>{{ item.name }}</td>
                     <td>
@@ -668,7 +741,9 @@
             </tbody>
         </table>
     </div>
-{% else %}
+{% endif %}
+
+{% if report_items %}
     <table>
         <tr>
             <th>Test</th>
diff --git a/tests/test_reporter.py b/tests/test_reporter.py
index a9fb6e5a0..8a33a7374 100644
--- a/tests/test_reporter.py
+++ b/tests/test_reporter.py
@@ -76,10 +76,12 @@ def _create_dse_report_fixture(
     slurm_system: SlurmSystem,
     slurm_metadata: SlurmSystemMetadata,
     gpu_name: str = "NVIDIA H100 80GB HBM3",
+    name: str = "dse-report",
+    description: str = "DSE summary sample",
 ) -> TestRun:
     test_definition = NCCLTestDefinition(
         name="dse-nccl",
-        description="DSE summary sample",
+        description=description,
         test_template_name="NcclTest",
         cmd_args=NCCLCmdArgs(
             docker_image_url="fake://url/nccl",
@@ -91,7 +93,7 @@ def _create_dse_report_fixture(
         agent_steps=3,
     )
     tr = TestRun(
-        name="dse-report",
+        name=name,
         test=test_definition,
         num_nodes=2,
         nodes=["node1", "node2"],
@@ -502,6 +504,7 @@ def test_dse_generate_scenario_report_renders_html(
     report_path = slurm_system.output_path / "dse_scenario.html"
     html = report_path.read_text()
     assert "cdn.jsdelivr.net/npm/chart.js" in html
+    assert "js-dse-tab-button" in html
     assert "Saved GPU-Hours" in html
     assert "Exploration Efficiency" in html
     assert "3 / 8 steps" in html
@@ -525,6 +528,32 @@ def test_dse_generate_scenario_report_renders_html(
     assert "1m 40s" in html
 
 
+def test_mixed_scenario_renders_dse_tabs_and_standard_table(
+    slurm_system: SlurmSystem, slurm_metadata: SlurmSystemMetadata, benchmark_tr: TestRun
+) -> None:
+    dse_tr_a = _create_dse_report_fixture(slurm_system, slurm_metadata, name="dse-report-a", description="DSE A")
+    dse_tr_b = _create_dse_report_fixture(slurm_system, slurm_metadata, name="dse-report-b", description="DSE B")
+
+    benchmark_dir = slurm_system.output_path / benchmark_tr.name / "0"
+    benchmark_dir.mkdir(parents=True, exist_ok=True)
+
+    reporter = StatusReporter(
+        slurm_system,
+        TestScenario(name="mixed_scenario", test_runs=[dse_tr_a, benchmark_tr, dse_tr_b]),
+        slurm_system.output_path,
+        ReportConfig(),
+    )
+
+    reporter.generate()
+
+    html = (slurm_system.output_path / "mixed_scenario.html").read_text()
+    assert "dse-report-a" in html
+    assert "dse-report-b" in html
+    assert html.count('data-tab-target="dse-case-') == 2
+    assert "All Steps" in html
+    assert benchmark_tr.name in html
+
+
 def test_effort_chart_uses_break_for_large_search_space() -> None:
     chart_data = _build_effort_chart_data(30, 100_000)
 

From 2a9ec7ca16f6ae6dd78c11d3fe948bade6c414d4 Mon Sep 17 00:00:00 2001
From: Ivan Podkidyshev <ipodkidyshev@nvidia.com>
Date: Tue, 24 Mar 2026 18:40:59 +0100
Subject: [PATCH 14/30] visuals completed

---
 src/cloudai/util/general-report.jinja2 | 88 ++++++++++++++++++--------
 tests/test_reporter.py                 |  3 +
 2 files changed, 63 insertions(+), 28 deletions(-)

diff --git a/src/cloudai/util/general-report.jinja2 b/src/cloudai/util/general-report.jinja2
index afbfa52bc..60ed51c8c 100644
--- a/src/cloudai/util/general-report.jinja2
+++ b/src/cloudai/util/general-report.jinja2
@@ -6,16 +6,41 @@
 {% endif %}
 <style>
     .dse-summary {
-        margin: 2rem 0 3rem;
+        margin: 0 0 3rem;
+    }
+    .dse-cases-shell {
+        margin: 1.5rem 0 2rem;
+        padding: 1.2rem 1.2rem 0.4rem;
+        border: 1px solid var(--nv-border);
+        border-radius: var(--radius-lg);
+        background: rgba(255, 255, 255, 0.98);
+        box-shadow: var(--nv-shadow);
+    }
+    .dse-cases-header {
+        margin-bottom: 1rem;
+    }
+    .dse-cases-header h2 {
+        margin: 0 0 0.25rem;
+    }
+    .dse-cases-subtitle {
+        margin: 0;
+        color: var(--nv-muted);
+        font-size: 0.95rem;
     }
     .dse-tabs {
-        margin: 1.25rem 0 2rem;
+        margin: 0;
     }
     .dse-tab-list {
         display: flex;
         flex-wrap: wrap;
         gap: 0.7rem;
         margin-bottom: 1.15rem;
+        padding: 0.35rem;
+        border-radius: 999px;
+        background: #f5f7f2;
+        border: 1px solid rgba(17, 17, 17, 0.06);
+        width: fit-content;
+        max-width: 100%;
     }
     .dse-tab-button {
         display: inline-flex;
@@ -24,18 +49,19 @@
         padding: 0.58rem 0.95rem;
         border-radius: 999px;
         border: 1px solid rgba(17, 17, 17, 0.08);
-        background: #ffffff;
+        background: transparent;
         color: var(--nv-ink);
         font-weight: 650;
         cursor: pointer;
     }
     .dse-tab-button:hover {
-        background: #fbfcfa;
+        background: rgba(255, 255, 255, 0.75);
     }
     .dse-tab-button.is-active {
         border-color: rgba(118, 185, 0, 0.28);
-        background: rgba(118, 185, 0, 0.10);
+        background: #ffffff;
         color: var(--nv-green-strong);
+        box-shadow: 0 1px 2px rgba(17, 17, 17, 0.06);
     }
     .dse-tab-panel {
         display: none;
@@ -561,28 +587,33 @@
 
 {% block content %}
 {% if dse_cases %}
-    <section class="dse-tabs js-dse-tabs">
-        <div class="dse-tab-list" role="tablist" aria-label="DSE test cases">
-            {% for case in dse_cases %}
-            <button
-                type="button"
-                class="dse-tab-button js-dse-tab-button {% if loop.first %}is-active{% endif %}"
-                data-tab-target="dse-case-{{ loop.index0 }}"
-                role="tab"
-                aria-selected="{{ 'true' if loop.first else 'false' }}"
-            >
-                {{ case.name }}
-            </button>
-            {% endfor %}
+    <section class="dse-cases-shell">
+        <div class="dse-cases-header">
+            <h2>DSE Cases</h2>
+            <p class="dse-cases-subtitle">Switch between DSE test cases in this scenario.</p>
         </div>
+        <div class="dse-tabs js-dse-tabs">
+            <div class="dse-tab-list" role="tablist" aria-label="DSE test cases">
+                {% for case in dse_cases %}
+                <button
+                    type="button"
+                    class="dse-tab-button js-dse-tab-button {% if loop.first %}is-active{% endif %}"
+                    data-tab-target="dse-case-{{ loop.index0 }}"
+                    role="tab"
+                    aria-selected="{{ 'true' if loop.first else 'false' }}"
+                >
+                    {{ case.name }}
+                </button>
+                {% endfor %}
+            </div>
 
-        {% for case in dse_cases %}
-        <div
-            class="dse-tab-panel js-dse-tab-panel {% if loop.first %}is-active{% endif %}"
-            data-tab-panel="dse-case-{{ loop.index0 }}"
-        >
-            {% for summary in case.summaries %}
-            <section class="dse-summary">
+            {% for case in dse_cases %}
+            <div
+                class="dse-tab-panel js-dse-tab-panel {% if loop.first %}is-active{% endif %}"
+                data-tab-panel="dse-case-{{ loop.index0 }}"
+            >
+                {% for summary in case.summaries %}
+                <section class="dse-summary">
         <div class="overview-board">
             <div class="overview-topline">
                 <h2>DSE: overview</h2>
@@ -691,11 +722,12 @@
                 <p>No reward data available.</p>
             {% endif %}
         </div>
-    </section>
-            {% endfor %}
+                </section>
+                {% endfor %}
 
+            </div>
+            {% endfor %}
         </div>
-        {% endfor %}
     </section>
 {% endif %}
 
diff --git a/tests/test_reporter.py b/tests/test_reporter.py
index 8a33a7374..57122637c 100644
--- a/tests/test_reporter.py
+++ b/tests/test_reporter.py
@@ -504,6 +504,8 @@ def test_dse_generate_scenario_report_renders_html(
     report_path = slurm_system.output_path / "dse_scenario.html"
     html = report_path.read_text()
     assert "cdn.jsdelivr.net/npm/chart.js" in html
+    assert "DSE Cases" in html
+    assert "Switch between DSE test cases in this scenario." in html
     assert "js-dse-tab-button" in html
     assert "Saved GPU-Hours" in html
     assert "Exploration Efficiency" in html
@@ -547,6 +549,7 @@ def test_mixed_scenario_renders_dse_tabs_and_standard_table(
     reporter.generate()
 
     html = (slurm_system.output_path / "mixed_scenario.html").read_text()
+    assert "DSE Cases" in html
     assert "dse-report-a" in html
     assert "dse-report-b" in html
     assert html.count('data-tab-target="dse-case-') == 2

From 659a946f417f04478058796ec6db9f1bd5e1408d Mon Sep 17 00:00:00 2001
From: Ivan Podkidyshev <ipodkidyshev@nvidia.com>
Date: Tue, 24 Mar 2026 18:51:43 +0100
Subject: [PATCH 15/30] fix graph bug and cleanup js

---
 src/cloudai/reporter.py                |   3 -
 src/cloudai/util/general-report.jinja2 | 240 +++++++++++--------------
 tests/test_reporter.py                 |   2 +
 3 files changed, 102 insertions(+), 143 deletions(-)

diff --git a/src/cloudai/reporter.py b/src/cloudai/reporter.py
index cd76c6a95..a754a822a 100644
--- a/src/cloudai/reporter.py
+++ b/src/cloudai/reporter.py
@@ -33,7 +33,6 @@
     format_duration,
     format_float,
     format_money,
-    format_percent,
 )
 
 
@@ -87,12 +86,10 @@ def to_html(self, dse_summaries: list[DSESummary]) -> None:
         report = template.render(
             name=self.test_scenario.name,
             report_items=standard_report_items,
-            dse_summaries=dse_summaries,
             dse_cases=dse_cases,
             dse_report_items=dse_report_items,
             format_duration=format_duration,
             format_float=format_float,
-            format_percent=format_percent,
             format_money=format_money,
         )
         report_path = self.results_root / f"{self.test_scenario.name}.html"
diff --git a/src/cloudai/util/general-report.jinja2 b/src/cloudai/util/general-report.jinja2
index 60ed51c8c..6393988c9 100644
--- a/src/cloudai/util/general-report.jinja2
+++ b/src/cloudai/util/general-report.jinja2
@@ -1,7 +1,7 @@
 {% extends "base-report.jinja2" %}
 
 {% block extra_head %}
-{% if dse_summaries %}
+{% if dse_cases %}
 <script src="https://cdn.jsdelivr.net/npm/chart.js@4.4.3/dist/chart.umd.min.js"></script>
 {% endif %}
 <style>
@@ -104,11 +104,6 @@
         margin: 0;
         color: var(--nv-ink);
     }
-    .overview-description {
-        max-width: 78ch;
-        margin: 0 0 1.25rem;
-        color: var(--nv-muted);
-    }
     .status-pill {
         display: inline-flex;
         align-items: center;
@@ -135,10 +130,6 @@
         background: rgba(244, 63, 94, 0.14);
         border-color: rgba(244, 63, 94, 0.30);
     }
-    .overview-summary-line {
-        color: var(--nv-muted);
-        font-size: 0.95rem;
-    }
     .overview-layout {
         display: grid;
         grid-template-columns: minmax(0, 1fr) minmax(320px, 0.92fr);
@@ -186,9 +177,6 @@
         font-size: 1.8rem;
         color: var(--nv-green-strong);
     }
-    .metric-card--neutral {
-        background: rgba(255, 255, 255, 0.94);
-    }
     .metric-label {
         display: flex;
         align-items: center;
@@ -246,13 +234,6 @@
     .effort-head h3 {
         margin: 0;
     }
-    .effort-caption {
-        color: var(--nv-muted);
-        font-size: 0.92rem;
-    }
-    .effort-chart-shell {
-        margin-top: 0.45rem;
-    }
     .efficiency-panel {
         display: flex;
         flex-direction: column;
@@ -287,23 +268,6 @@
         margin-top: 1.15rem;
         padding: 1.2rem 1.3rem;
     }
-    .section-topline {
-        display: flex;
-        flex-wrap: wrap;
-        align-items: center;
-        justify-content: space-between;
-        gap: 0.8rem 1rem;
-        margin-bottom: 0.9rem;
-    }
-    .section-topline h3 {
-        margin: 0;
-    }
-    .best-config-actions {
-        display: flex;
-        flex-wrap: wrap;
-        gap: 0.75rem;
-        align-items: center;
-    }
     .action-button {
         display: inline-flex;
         align-items: center;
@@ -439,10 +403,6 @@
         .chart-shell {
             height: 280px;
         }
-        .effort-chart-shell {
-            height: auto;
-            min-height: 0;
-        }
         .metric-card--accent .metric-value,
         .efficiency-ratio {
             font-size: 1.45rem;
@@ -456,7 +416,7 @@
         }
     }
 </style>
-{% if dse_summaries %}
+{% if dse_cases %}
 <script>
     document.addEventListener("DOMContentLoaded", function () {
         document.querySelectorAll(".js-copy-config").forEach((button) => {
@@ -612,116 +572,116 @@
                 class="dse-tab-panel js-dse-tab-panel {% if loop.first %}is-active{% endif %}"
                 data-tab-panel="dse-case-{{ loop.index0 }}"
             >
+                {% set case_idx = loop.index0 %}
                 {% for summary in case.summaries %}
                 <section class="dse-summary">
-        <div class="overview-board">
-            <div class="overview-topline">
-                <h2>DSE: overview</h2>
-                <span class="status-pill status-pill--{{ summary.status_text | lower }}">{{ summary.status_text }}</span>
-            </div>
-
-            <div class="overview-layout">
-                <div class="overview-left">
-                    <div class="summary-stat-grid">
-                        <div class="impact-stat-grid">
-                            <div class="metric-card metric-card--hero">
-                                <div class="metric-label">Saved Time</div>
-                                <div class="metric-value">{{ format_duration(summary.saved_runtime_sec) }}</div>
-                            </div>
-                            <div class="metric-card metric-card--hero">
-                                <div class="metric-label">Saved GPU-Hours</div>
-                                <div class="metric-value">{{ format_float(summary.saved_gpu_hours, 2) }}</div>
-                            </div>
+                    <div class="overview-board">
+                        <div class="overview-topline">
+                            <h2>DSE: overview</h2>
+                            <span class="status-pill status-pill--{{ summary.status_text | lower }}">{{ summary.status_text }}</span>
                         </div>
 
-                        <div class="impact-stat-grid">
-                            <div class="metric-card metric-card--accent">
-                                <div class="metric-label">Estimated Savings</div>
-                                <div class="metric-value">{{ format_money(summary.estimated_saved_cost_usd) }}</div>
+                        <div class="overview-layout">
+                            <div class="overview-left">
+                                <div class="summary-stat-grid">
+                                    <div class="impact-stat-grid">
+                                        <div class="metric-card metric-card--hero">
+                                            <div class="metric-label">Saved Time</div>
+                                            <div class="metric-value">{{ format_duration(summary.saved_runtime_sec) }}</div>
+                                        </div>
+                                        <div class="metric-card metric-card--hero">
+                                            <div class="metric-label">Saved GPU-Hours</div>
+                                            <div class="metric-value">{{ format_float(summary.saved_gpu_hours, 2) }}</div>
+                                        </div>
+                                    </div>
+
+                                    <div class="impact-stat-grid">
+                                        <div class="metric-card metric-card--accent">
+                                            <div class="metric-label">Estimated Savings</div>
+                                            <div class="metric-value">{{ format_money(summary.estimated_saved_cost_usd) }}</div>
+                                        </div>
+                                        <div class="context-item"><span class="label">GPU Label</span><span class="value">{{ summary.gpu_arch_label or "unknown" }}</span></div>
+                                    </div>
+
+                                    <div class="context-strip">
+                                        <div class="context-item context-item--runtime"><span class="label">Avg Step Runtime</span><span class="value">{{ format_duration(summary.avg_step_duration_sec) }}</span></div>
+                                        <div class="context-item context-item--runtime"><span class="label">Observed Runtime</span><span class="value">{{ format_duration(summary.total_runtime_sec) }}</span></div>
+                                    </div>
+                                </div>
+                            </div>
+                            {% if summary.effort_chart_data %}
+                            <div class="effort-block">
+                                <div class="effort-head">
+                                    <h3>Exploration Efficiency</h3>
+                                </div>
+                                <div class="efficiency-panel" aria-label="Efficiency summary for explored steps versus total search space">
+                                    <div class="efficiency-callout">
+                                        <div class="efficiency-ratio">~{{ format_float(summary.effort_chart_data["reduction_factor"], 1) }}x</div>
+                                        <div class="efficiency-ratio-note">reduction in search space</div>
+                                    </div>
+                                    <div class="efficiency-steps">{{ "{:,}".format(summary.effort_chart_data["executed_steps"]) }} / {{ "{:,}".format(summary.effort_chart_data["total_space"]) }} steps</div>
+                                </div>
                             </div>
-                            <div class="context-item"><span class="label">GPU Label</span><span class="value">{{ summary.gpu_arch_label or "unknown" }}</span></div>
+                            {% endif %}
                         </div>
 
-                        <div class="context-strip">
-                            <div class="context-item context-item--runtime"><span class="label">Avg Step Runtime</span><span class="value">{{ format_duration(summary.avg_step_duration_sec) }}</span></div>
-                            <div class="context-item context-item--runtime"><span class="label">Observed Runtime</span><span class="value">{{ format_duration(summary.total_runtime_sec) }}</span></div>
-                        </div>
+                        {% if summary.best_config_toml %}
+                        <details class="best-config-preview">
+                            <summary>
+                                <span class="best-config-summary-title">Best Config TOML</span>
+                                <span class="best-config-summary-actions">
+                                    {% if summary.analysis_rel_path %}<a href="{{ summary.analysis_rel_path }}">BO Analysis</a>{% endif %}
+                                    <button type="button" class="action-button js-copy-config" data-copy-target="best-config-text-{{ case_idx }}-{{ loop.index0 }}">Copy TOML</button>
+                                </span>
+                            </summary>
+                            <pre id="best-config-text-{{ case_idx }}-{{ loop.index0 }}">{{ summary.best_config_toml }}</pre>
+                        </details>
+                        {% endif %}
                     </div>
-                </div>
 
-                {% if summary.effort_chart_data %}
-                <div class="effort-block">
-                    <div class="effort-head">
-                        <h3>Exploration Efficiency</h3>
-                    </div>
-                    <div class="efficiency-panel" aria-label="Efficiency summary for explored steps versus total search space">
-                        <div class="efficiency-callout">
-                            <div class="efficiency-ratio">~{{ format_float(summary.effort_chart_data["reduction_factor"], 1) }}x</div>
-                            <div class="efficiency-ratio-note">reduction in search space</div>
-                        </div>
-                        <div class="efficiency-steps">{{ "{:,}".format(summary.effort_chart_data["executed_steps"]) }} / {{ "{:,}".format(summary.effort_chart_data["total_space"]) }} steps</div>
+                    <div class="dse-box">
+                        <h3>DSE: Exploration Space</h3>
+                        <table class="space-table">
+                            <thead>
+                                <tr>
+                                    <th>Parameter</th>
+                                    <th>Allowed Values</th>
+                                </tr>
+                            </thead>
+                            <tbody>
+                                {% for row in summary.parameter_rows %}
+                                <tr>
+                                    <td>{{ row.name }}</td>
+                                    <td>
+                                        <div class="value-cloud">
+                                            {% for value in row.values %}
+                                            <span class="value-pill {% if value == row.best_value %}value-pill--selected{% endif %}">{{ value }}</span>
+                                            {% endfor %}
+                                        </div>
+                                    </td>
+                                </tr>
+                                {% endfor %}
+                            </tbody>
+                        </table>
                     </div>
-                </div>
-                {% endif %}
-            </div>
 
-            {% if summary.best_config_toml %}
-            <details class="best-config-preview">
-                <summary>
-                    <span class="best-config-summary-title">Best Config TOML</span>
-                    <span class="best-config-summary-actions">
-                        {% if summary.analysis_rel_path %}<a href="{{ summary.analysis_rel_path }}">BO Analysis</a>{% endif %}
-                        <button type="button" class="action-button js-copy-config" data-copy-target="best-config-text-{{ loop.index0 }}">Copy TOML</button>
-                    </span>
-                </summary>
-                <pre id="best-config-text-{{ loop.index0 }}">{{ summary.best_config_toml }}</pre>
-            </details>
-            {% endif %}
-        </div>
-
-        <div class="dse-box">
-            <h3>DSE: Exploration Space</h3>
-            <table class="space-table">
-                <thead>
-                    <tr>
-                        <th>Parameter</th>
-                        <th>Allowed Values</th>
-                    </tr>
-                </thead>
-                <tbody>
-                    {% for row in summary.parameter_rows %}
-                    <tr>
-                        <td>{{ row.name }}</td>
-                        <td>
-                            <div class="value-cloud">
-                                {% for value in row.values %}
-                                <span class="value-pill {% if value == row.best_value %}value-pill--selected{% endif %}">{{ value }}</span>
-                                {% endfor %}
+                    <div class="dse-box viz-card">
+                        <h3>DSE: Reward Over Steps</h3>
+                        {% if summary.reward_chart_data %}
+                            <div class="chart-shell">
+                                <canvas
+                                    class="js-reward-chart"
+                                    data-chart-data-id="reward-chart-data-{{ case_idx }}-{{ loop.index0 }}"
+                                    aria-label="Line chart of reward over DSE steps"
+                                ></canvas>
                             </div>
-                        </td>
-                    </tr>
-                    {% endfor %}
-                </tbody>
-            </table>
-        </div>
-
-        <div class="dse-box viz-card">
-            <h3>DSE: Reward Over Steps</h3>
-            {% if summary.reward_chart_data %}
-                <div class="chart-shell">
-                    <canvas
-                        class="js-reward-chart"
-                        data-chart-data-id="reward-chart-data-{{ loop.index0 }}"
-                        aria-label="Line chart of reward over DSE steps"
-                    ></canvas>
-                </div>
-                <script type="application/json" id="reward-chart-data-{{ loop.index0 }}">{{ summary.reward_chart_data | tojson }}</script>
-                <p class="chart-fallback">Interactive chart unavailable. Step count and summary metrics remain available above.</p>
-                <noscript><p class="chart-fallback">JavaScript is disabled. Numeric report details remain available without charts.</p></noscript>
-            {% else %}
-                <p>No reward data available.</p>
-            {% endif %}
-        </div>
+                            <script type="application/json" id="reward-chart-data-{{ case_idx }}-{{ loop.index0 }}">{{ summary.reward_chart_data | tojson }}</script>
+                            <p class="chart-fallback">Interactive chart unavailable. Step count and summary metrics remain available above.</p>
+                            <noscript><p class="chart-fallback">JavaScript is disabled. Numeric report details remain available without charts.</p></noscript>
+                        {% else %}
+                            <p>No reward data available.</p>
+                        {% endif %}
+                    </div>
                 </section>
                 {% endfor %}
 
diff --git a/tests/test_reporter.py b/tests/test_reporter.py
index 57122637c..a38718a72 100644
--- a/tests/test_reporter.py
+++ b/tests/test_reporter.py
@@ -553,6 +553,8 @@ def test_mixed_scenario_renders_dse_tabs_and_standard_table(
     assert "dse-report-a" in html
     assert "dse-report-b" in html
     assert html.count('data-tab-target="dse-case-') == 2
+    assert 'id="reward-chart-data-0-0"' in html
+    assert 'id="reward-chart-data-1-0"' in html
     assert "All Steps" in html
     assert benchmark_tr.name in html
 

From 9109bb15f4e5d20f576f7f5e38cabc2f63a3b2a4 Mon Sep 17 00:00:00 2001
From: Ivan Podkidyshev <ipodkidyshev@nvidia.com>
Date: Tue, 24 Mar 2026 22:08:20 +0100
Subject: [PATCH 16/30] huge refactor

---
 src/cloudai/registration.py                   |   3 +-
 src/cloudai/report_generator/dse_report.py    | 328 ++++++++
 src/cloudai/report_generator/status_report.py | 459 ----------
 src/cloudai/report_generator/util.py          |  29 +
 src/cloudai/reporter.py                       | 185 ++--
 src/cloudai/util/dse-report.jinja2            | 415 +++++++++
 src/cloudai/util/general-report.jinja2        | 788 +-----------------
 tests/test_reporter.py                        |   3 +-
 8 files changed, 901 insertions(+), 1309 deletions(-)
 create mode 100644 src/cloudai/report_generator/dse_report.py
 delete mode 100644 src/cloudai/report_generator/status_report.py
 create mode 100644 src/cloudai/util/dse-report.jinja2

diff --git a/src/cloudai/registration.py b/src/cloudai/registration.py
index 866baa945..c49fd0b56 100644
--- a/src/cloudai/registration.py
+++ b/src/cloudai/registration.py
@@ -46,7 +46,7 @@ def register_all():
     )
     from cloudai.core import Registry
     from cloudai.models.scenario import ReportConfig
-    from cloudai.reporter import PerTestReporter, StatusReporter, TarballReporter
+    from cloudai.reporter import DSEReporter, PerTestReporter, StatusReporter, TarballReporter
 
     # Import systems
     from cloudai.systems.kubernetes import KubernetesInstaller, KubernetesRunner, KubernetesSystem
@@ -295,6 +295,7 @@ def register_all():
 
     Registry().add_scenario_report("per_test", PerTestReporter, ReportConfig(enable=True))
     Registry().add_scenario_report("status", StatusReporter, ReportConfig(enable=True))
+    Registry().add_scenario_report("dse", DSEReporter, ReportConfig(enable=True))
     Registry().add_scenario_report("tarball", TarballReporter, ReportConfig(enable=True))
     Registry().add_scenario_report(
         "nixl_bench_summary",
diff --git a/src/cloudai/report_generator/dse_report.py b/src/cloudai/report_generator/dse_report.py
new file mode 100644
index 000000000..22f981a14
--- /dev/null
+++ b/src/cloudai/report_generator/dse_report.py
@@ -0,0 +1,328 @@
+# SPDX-FileCopyrightText: NVIDIA CORPORATION & AFFILIATES
+# Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# SPDX-License-Identifier: Apache-2.0
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+from __future__ import annotations
+
+import ast
+import contextlib
+import logging
+from dataclasses import dataclass
+from pathlib import Path
+from typing import Any
+
+import toml
+
+from cloudai.core import CommandGenStrategy, System, TestRun
+from cloudai.models.scenario import TestRunDetails
+from cloudai.systems.slurm import SlurmJobMetadata
+from cloudai.util.lazy_imports import lazy
+from .util import load_system_metadata
+
+GPU_HOURLY_COST_USD = {
+    "H100": 4.50,
+    "B200": 8.00,
+    "GB200": 10.00,
+    "GB300": 12.00,
+}
+
+
+@dataclass(frozen=True)
+class DSEParameterValue:
+    text: str
+    is_best: bool
+
+
+@dataclass(frozen=True)
+class DSEParameterRow:
+    name: str
+    values: list[DSEParameterValue]
+
+
+@dataclass(frozen=True)
+class DSEStepRow:
+    name: str
+    status_text: str
+    status_class: str
+    logs_path: str | None
+    nodes_text: str
+
+
+@dataclass(frozen=True)
+class DSERunSummary:
+    name: str
+    saved_time: str
+    saved_gpu_hours: str
+    estimated_savings: str
+    gpu_label: str
+    avg_step_runtime: str
+    observed_runtime: str
+    efficiency_ratio: str
+    efficiency_steps: str
+    best_config_toml: str
+    parameter_rows: list[DSEParameterRow]
+    reward_chart_data: dict[str, Any] | None
+
+
+@dataclass(frozen=True)
+class _StepComputation:
+    step: int
+    reward: float
+    observation_text: str
+    action: dict[str, Any]
+    elapsed_time_sec: int | None
+    is_successful: bool
+
+
+def format_duration(seconds: float | None) -> str:
+    if seconds is None:
+        return "n/a"
+
+    seconds = max(float(seconds), 0.0)
+    if seconds < 60:
+        return f"{seconds:.1f}s"
+
+    minutes, sec = divmod(round(seconds), 60)
+    hours, minutes = divmod(minutes, 60)
+    parts = []
+    if hours:
+        parts.append(f"{hours}h")
+    if minutes:
+        parts.append(f"{minutes}m")
+    if sec or not parts:
+        parts.append(f"{sec}s")
+    return " ".join(parts)
+
+
+def format_float(value: float | None, precision: int = 2) -> str:
+    if value is None:
+        return "n/a"
+    return f"{value:.{precision}f}"
+
+
+def format_money(value: float | None) -> str:
+    if value is None:
+        return "n/a"
+    return f"${value:,.2f}"
+
+
+def _safe_literal_eval(raw: Any, default: Any) -> Any:
+    if isinstance(raw, str):
+        with contextlib.suppress(SyntaxError, ValueError):
+            return ast.literal_eval(raw)
+    return default
+
+
+def _format_scalar(value: Any) -> str:
+    if isinstance(value, float):
+        return f"{value:.4f}".rstrip("0").rstrip(".")
+    return str(value)
+
+
+def _normalize_gpu_family(gpu_name: str | None) -> str | None:
+    if not gpu_name:
+        return None
+    upper = gpu_name.upper()
+    for family in GPU_HOURLY_COST_USD:
+        if family in upper:
+            return family
+    return None
+
+
+def _step_elapsed_time(step_dir: Path) -> int | None:
+    slurm_job_path = step_dir / "slurm-job.toml"
+    if not slurm_job_path.exists():
+        return None
+
+    with slurm_job_path.open() as f:
+        metadata = SlurmJobMetadata.model_validate(toml.load(f))
+    return metadata.elapsed_time_sec
+
+
+def _build_reward_chart_data(steps: list[_StepComputation]) -> dict[str, Any] | None:
+    if not steps:
+        return None
+
+    best_index = max(range(len(steps)), key=lambda idx: steps[idx].reward)
+    return {
+        "labels": [step.step for step in steps],
+        "rewards": [step.reward for step in steps],
+        "observations": [step.observation_text for step in steps],
+        "best_index": best_index,
+    }
+
+
+def _build_parameter_rows(param_space: dict[str, list[Any]], best_action: dict[str, Any]) -> list[DSEParameterRow]:
+    rows: list[DSEParameterRow] = []
+    for name, values in param_space.items():
+        best_value = _format_scalar(best_action.get(name, "n/a"))
+        rows.append(
+            DSEParameterRow(
+                name=name,
+                values=[DSEParameterValue(text=_format_scalar(value), is_best=_format_scalar(value) == best_value) for value in values],
+            )
+        )
+    return rows
+
+
+def _build_iteration_summary(
+    system: System,
+    results_root: Path,
+    test_case: TestRun,
+    iteration: int,
+    iteration_dir: Path,
+    test_runs: list[TestRun],
+) -> DSERunSummary | None:
+    trajectory_file = iteration_dir / "trajectory.csv"
+    if not trajectory_file.is_file():
+        logging.warning(f"No trajectory file found for {test_case.name} at {trajectory_file}")
+        return None
+
+    df = lazy.pd.read_csv(trajectory_file)
+    if df.empty:
+        logging.warning(f"No trajectory data found for {test_case.name} at {trajectory_file}")
+        return None
+
+    runs_by_step = {test_run.step: test_run for test_run in test_runs}
+    steps: list[_StepComputation] = []
+    for row in df.to_dict(orient="records"):
+        step_no = int(row["step"])
+        action = _safe_literal_eval(row.get("action"), {})
+        if not isinstance(action, dict):
+            action = {}
+        observation = _safe_literal_eval(row.get("observation"), [])
+        if not isinstance(observation, list):
+            observation = [observation]
+        step_run = runs_by_step.get(step_no)
+        steps.append(
+            _StepComputation(
+                step=step_no,
+                reward=float(row["reward"]),
+                observation_text=", ".join(_format_scalar(value) for value in observation) if observation else "n/a",
+                action=action,
+                elapsed_time_sec=_step_elapsed_time(iteration_dir / str(step_no)),
+                is_successful=step_run.test.was_run_successful(step_run).is_successful if step_run else False,
+            )
+        )
+
+    if not steps:
+        return None
+
+    steps.sort(key=lambda step: step.step)
+    best_step = max(steps, key=lambda step: step.reward)
+    best_step_dump = iteration_dir / str(best_step.step) / CommandGenStrategy.TEST_RUN_DUMP_FILE_NAME
+    if not best_step_dump.exists():
+        logging.warning(f"No test run dump found for best DSE step at {best_step_dump}")
+        return None
+
+    with best_step_dump.open() as f:
+        test_run_details = TestRunDetails.model_validate(toml.load(f))
+
+    best_config_toml = toml.dumps(test_run_details.test_definition.model_dump())
+
+    elapsed_times = [step.elapsed_time_sec for step in steps if step.elapsed_time_sec is not None]
+    avg_step_duration_sec = sum(elapsed_times) / len(elapsed_times) if elapsed_times else None
+    total_runtime_sec = sum(elapsed_times) if elapsed_times else None
+    total_space = len(test_case.all_combinations)
+    executed_steps = len(steps)
+    projected_runtime_sec = avg_step_duration_sec * total_space if avg_step_duration_sec is not None else None
+    saved_runtime_sec = (
+        max(projected_runtime_sec - total_runtime_sec, 0.0)
+        if projected_runtime_sec is not None and total_runtime_sec is not None
+        else None
+    )
+
+    metadata = load_system_metadata(iteration_dir / str(best_step.step), results_root)
+    gpu_arch_label = metadata.system.gpu_arch_type if metadata else None
+    gpu_arch_family = _normalize_gpu_family(gpu_arch_label)
+    gpus_per_node = getattr(system, "gpus_per_node", None)
+    total_gpu_hours = (
+        (total_runtime_sec / 3600.0) * test_run_details.nnodes * gpus_per_node
+        if total_runtime_sec is not None and gpus_per_node is not None
+        else None
+    )
+    projected_gpu_hours = (
+        (projected_runtime_sec / 3600.0) * test_run_details.nnodes * gpus_per_node
+        if projected_runtime_sec is not None and gpus_per_node is not None
+        else None
+    )
+    saved_gpu_hours = (
+        max(projected_gpu_hours - total_gpu_hours, 0.0)
+        if projected_gpu_hours is not None and total_gpu_hours is not None
+        else None
+    )
+    estimated_saved_cost_usd = (
+        saved_gpu_hours * GPU_HOURLY_COST_USD[gpu_arch_family]
+        if saved_gpu_hours is not None and gpu_arch_family in GPU_HOURLY_COST_USD
+        else None
+    )
+
+    reduction_factor = total_space / max(executed_steps, 1)
+
+    return DSERunSummary(
+        name=f"{test_case.name}-{iteration}",
+        saved_time=format_duration(saved_runtime_sec),
+        saved_gpu_hours=format_float(saved_gpu_hours, 2),
+        estimated_savings=format_money(estimated_saved_cost_usd),
+        gpu_label=gpu_arch_label or "unknown",
+        avg_step_runtime=format_duration(avg_step_duration_sec),
+        observed_runtime=format_duration(total_runtime_sec),
+        efficiency_ratio=f"~{format_float(reduction_factor, 1)}x",
+        efficiency_steps=f"{executed_steps:,} / {total_space:,} steps",
+        best_config_toml=best_config_toml,
+        parameter_rows=_build_parameter_rows(test_case.param_space, best_step.action),
+        reward_chart_data=_build_reward_chart_data(steps),
+    )
+
+
+def build_dse_summaries(
+    system: System,
+    results_root: Path,
+    loaded_test_runs: list[TestRun],
+    test_cases: list[TestRun],
+) -> list[DSERunSummary]:
+    result: list[DSERunSummary] = []
+
+    for test_case in test_cases:
+        if not test_case.is_dse_job:
+            continue
+
+        case_root = results_root / test_case.name
+        if not case_root.is_dir():
+            continue
+
+        for iteration in range(test_case.iterations):
+            dse_iteration_runs = [
+                tr
+                for tr in loaded_test_runs
+                if tr.name == test_case.name and tr.current_iteration != iteration
+            ]
+
+            iteration_dir = case_root / str(iteration)
+            if not iteration_dir.is_dir():
+                continue
+
+            summary = _build_iteration_summary(
+                system=system,
+                results_root=results_root,
+                test_case=test_case,
+                iteration=iteration,
+                iteration_dir=case_root / str(iteration),
+                test_runs=dse_iteration_runs,
+            )
+            if summary is not None:
+                result.append(summary)
+
+    return result
diff --git a/src/cloudai/report_generator/status_report.py b/src/cloudai/report_generator/status_report.py
deleted file mode 100644
index 3ce0c4943..000000000
--- a/src/cloudai/report_generator/status_report.py
+++ /dev/null
@@ -1,459 +0,0 @@
-# SPDX-FileCopyrightText: NVIDIA CORPORATION & AFFILIATES
-# Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
-# SPDX-License-Identifier: Apache-2.0
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#     http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-from __future__ import annotations
-
-import ast
-import contextlib
-import logging
-from dataclasses import dataclass, field
-from pathlib import Path
-from typing import Any
-
-import toml
-from pydantic import BaseModel
-
-from cloudai.core import CommandGenStrategy, TestRun, case_name
-from cloudai.models.scenario import TestRunDetails
-from cloudai.util.lazy_imports import lazy
-
-GPU_HOURLY_COST_USD = {
-    "H100": 4.50,
-    "B200": 8.00,
-    "GB200": 10.00,
-    "GB300": 12.00,
-}
-
-
-def format_duration(seconds: float | None) -> str:
-    if seconds is None:
-        return "n/a"
-
-    seconds = max(float(seconds), 0.0)
-    if seconds < 60:
-        return f"{seconds:.1f}s"
-
-    minutes, sec = divmod(round(seconds), 60)
-    hours, minutes = divmod(minutes, 60)
-    parts = []
-    if hours:
-        parts.append(f"{hours}h")
-    if minutes:
-        parts.append(f"{minutes}m")
-    if sec or not parts:
-        parts.append(f"{sec}s")
-    return " ".join(parts)
-
-
-def format_float(value: float | None, precision: int = 2) -> str:
-    if value is None:
-        return "n/a"
-    return f"{value:.{precision}f}"
-
-
-def format_percent(value: float | None) -> str:
-    if value is None:
-        return "n/a"
-    return f"{value:.2f}%"
-
-
-def format_money(value: float | None) -> str:
-    if value is None:
-        return "n/a"
-    return f"${value:,.2f}"
-
-
-def _safe_literal_eval(raw: Any, default: Any) -> Any:
-    if isinstance(raw, str):
-        with contextlib.suppress(SyntaxError, ValueError):
-            return ast.literal_eval(raw)
-    return default
-
-
-def _format_scalar(value: Any) -> str:
-    if isinstance(value, float):
-        return f"{value:.4f}".rstrip("0").rstrip(".")
-    return str(value)
-
-
-def _normalize_gpu_family(gpu_name: str | None) -> str | None:
-    if not gpu_name:
-        return None
-
-    upper = gpu_name.upper()
-    for family in GPU_HOURLY_COST_USD:
-        if family in upper:
-            return family
-    return None
-
-
-def _build_reward_chart_data(steps: list["DSEStepData"]) -> dict[str, list[Any]] | None:
-    if not steps:
-        return None
-
-    best_index = max(range(len(steps)), key=lambda idx: steps[idx].reward)
-    return {
-        "labels": [step.step for step in steps],
-        "rewards": [step.reward for step in steps],
-        "observations": [step.observation_display for step in steps],
-        "best_index": best_index,
-    }
-
-
-def _build_effort_chart_data(executed_steps: int, total_space: int) -> dict[str, Any] | None:
-    if total_space <= 0:
-        return None
-
-    explored_ratio = min(max(executed_steps / total_space, 0.0), 1.0)
-    reduction_factor = total_space / max(executed_steps, 1)
-    return {
-        "explored_ratio": explored_ratio,
-        "explored_percent": explored_ratio * 100.0,
-        "avoided_percent": max((1.0 - explored_ratio) * 100.0, 0.0),
-        "reduction_factor": reduction_factor,
-        "executed_steps": executed_steps,
-        "total_space": total_space,
-    }
-
-
-class _ReportMetadataSystem(BaseModel):
-    gpu_arch_type: str
-
-
-class _ReportMetadataSlurm(BaseModel):
-    node_list: str
-
-
-class _ReportSystemMetadata(BaseModel):
-    system: _ReportMetadataSystem
-    slurm: _ReportMetadataSlurm
-
-
-class _ReportJobMetadata(BaseModel):
-    elapsed_time_sec: int
-
-
-def load_system_metadata(run_dir: Path, results_root: Path) -> _ReportSystemMetadata | None:
-    """Load system metadata from run_dir. At the moment it supports only Slurm."""
-    metadata_path = run_dir / "metadata"
-    if not metadata_path.exists():
-        logging.debug(f"No metadata folder found in {run_dir=}")
-        if not (results_root / "metadata").exists():
-            logging.debug(f"No metadata folder found in {results_root=}")
-            return None
-        metadata_path = results_root / "metadata"
-
-    node_files = list(metadata_path.glob("node-*.toml"))
-    if not node_files:
-        logging.debug(f"No node files found in {metadata_path}")
-        return None
-
-    node_file = node_files[0]
-    with node_file.open() as f:
-        try:
-            return _ReportSystemMetadata.model_validate(toml.load(f))
-        except Exception as e:
-            logging.debug(f"Error validating metadata for {node_file}: {e}")
-
-    return None
-
-
-@dataclass
-class ReportItem:
-    """Basic report item for general systems."""
-
-    group_name: str
-    name: str
-    description: str
-    logs_path: str | None
-    nodes: _ReportSystemMetadata | None
-    status_text: str
-    status_class: str
-    is_dse: bool
-
-    @classmethod
-    def from_test_runs(cls, test_runs: list[TestRun], results_root: Path) -> list["ReportItem"]:
-        report_items: list[ReportItem] = []
-        for tr in test_runs:
-            tr_status = tr.test.was_run_successful(tr)
-            status_text = "PASSED" if tr_status.is_successful else "FAILED"
-            report_items.append(
-                ReportItem(
-                    group_name=tr.name,
-                    name=case_name(tr),
-                    description=tr.test.description,
-                    logs_path=f"./{tr.output_path.relative_to(results_root)}" if tr.output_path.exists() else None,
-                    nodes=load_system_metadata(tr.output_path, results_root),
-                    status_text=status_text,
-                    status_class=status_text.lower(),
-                    is_dse=tr.is_dse_job,
-                )
-            )
-        return report_items
-
-
-@dataclass
-class DSEStepData:
-    """DSE step data."""
-
-    step: int
-    reward: float
-    observation: list[Any]
-    observation_display: str
-    action: dict[str, Any]
-    elapsed_time_sec: int | None = None
-    is_successful: bool = False
-
-
-@dataclass
-class DSEParameterRow:
-    """DSE parameter row."""
-
-    name: str
-    values: list[str]
-    best_value: str
-
-
-@dataclass
-class DSESummary:
-    """Summary of a DSE iteration."""
-
-    name: str
-    description: str
-    iteration: int
-    output_root: Path
-    output_root_rel_path: str
-    total_space: int
-    executed_steps: int
-    skipped_steps: int
-    best_step: int | None
-    best_reward: float | None
-    avg_step_duration_sec: float | None
-    total_runtime_sec: float | None
-    saved_runtime_sec: float | None
-    failure_count: int
-    gpu_arch_label: str | None
-    saved_gpu_hours: float | None
-    estimated_saved_cost_usd: float | None
-    best_config_rel_path: str | None
-    best_config_toml: str | None
-    analysis_rel_path: str | None
-    parameter_rows: list[DSEParameterRow] = field(default_factory=list)
-    reward_chart_data: dict[str, list[Any]] | None = None
-    effort_chart_data: dict[str, Any] | None = None
-
-    @property
-    def status_text(self) -> str:
-        if self.failure_count == 0:
-            return "PASSED"
-        if self.failure_count == self.executed_steps:
-            return "FAILED"
-        return "PARTIAL"
-
-    @property
-    def status_style(self) -> str:
-        return {
-            "PASSED": "[green]PASSED[/green]",
-            "FAILED": "[red]FAILED[/red]",
-            "PARTIAL": "[yellow]PARTIAL[/yellow]",
-        }[self.status_text]
-
-
-class DSEReportBuilder:
-    """Build DSE summaries and best-config artifacts from generated results."""
-
-    def __init__(self, system: Any, results_root: Path, loaded_test_runs: list[TestRun]):
-        self.system = system
-        self.results_root = results_root
-        self.loaded_test_runs = loaded_test_runs
-
-    @staticmethod
-    def best_config_file_name(tr: TestRun) -> str:
-        return f"{tr.name}.toml"
-
-    def build(self, original_test_runs: list[TestRun]) -> list[DSESummary]:
-        summaries: list[DSESummary] = []
-        for tr in original_test_runs:
-            if not tr.is_dse_job:
-                continue
-            summaries.extend(self._build_for_test_run(tr))
-        return summaries
-
-    def _build_for_test_run(self, original_tr: TestRun) -> list[DSESummary]:
-        summaries: list[DSESummary] = []
-        tr_base_dir = self.results_root / original_tr.name
-        if not tr_base_dir.exists():
-            return summaries
-
-        grouped_trs: dict[int, list[TestRun]] = {}
-        for tr in self.loaded_test_runs:
-            if tr.name != original_tr.name:
-                continue
-            grouped_trs.setdefault(tr.current_iteration, []).append(tr)
-
-        iteration_dirs = sorted((d for d in tr_base_dir.iterdir() if d.is_dir()), key=lambda p: int(p.name))
-        for iter_dir in iteration_dirs:
-            iteration = int(iter_dir.name)
-            summary = self._build_iteration_summary(original_tr, iteration, iter_dir, grouped_trs.get(iteration, []))
-            if summary is not None:
-                summaries.append(summary)
-        return summaries
-
-    def _build_iteration_summary(
-        self,
-        original_tr: TestRun,
-        iteration: int,
-        iter_dir: Path,
-        step_trs: list[TestRun],
-    ) -> DSESummary | None:
-        trajectory_file = iter_dir / "trajectory.csv"
-        if not trajectory_file.exists():
-            logging.warning(f"No trajectory file found for {original_tr.name} at {trajectory_file}")
-            return None
-
-        df = lazy.pd.read_csv(trajectory_file)
-        if df.empty:
-            return None
-
-        steps_by_number = {tr.step: tr for tr in step_trs}
-        steps: list[DSEStepData] = []
-        for row in df.to_dict(orient="records"):
-            step_no = int(row["step"])
-            action = _safe_literal_eval(row.get("action"), {})
-            if not isinstance(action, dict):
-                action = {}
-            observation = _safe_literal_eval(row.get("observation"), [])
-            if not isinstance(observation, list):
-                observation = [observation]
-            tr = steps_by_number.get(step_no)
-            is_successful = tr.test.was_run_successful(tr).is_successful if tr is not None else False
-            steps.append(
-                DSEStepData(
-                    step=step_no,
-                    reward=float(row["reward"]),
-                    observation=observation,
-                    observation_display=", ".join(_format_scalar(v) for v in observation) if observation else "n/a",
-                    action=action,
-                    elapsed_time_sec=self._step_elapsed_time(iter_dir / str(step_no)),
-                    is_successful=is_successful,
-                )
-            )
-
-        if not steps:
-            return None
-
-        steps.sort(key=lambda step: step.step)
-        best_step_data = max(steps, key=lambda step: step.reward)
-        best_step_dir = iter_dir / str(best_step_data.step)
-        best_step_details = best_step_dir / CommandGenStrategy.TEST_RUN_DUMP_FILE_NAME
-        if not best_step_details.exists():
-            logging.warning(f"No test run dump found for best DSE step at {best_step_details}")
-            return None
-
-        with best_step_details.open() as f:
-            trd = TestRunDetails.model_validate(toml.load(f))
-
-        best_config_path = iter_dir / self.best_config_file_name(original_tr)
-        with best_config_path.open("w") as f:
-            toml.dump(trd.test_definition.model_dump(), f)
-        best_config_toml = toml.dumps(trd.test_definition.model_dump())
-
-        elapsed_times = [step.elapsed_time_sec for step in steps if step.elapsed_time_sec is not None]
-        avg_step_duration_sec = sum(elapsed_times) / len(elapsed_times) if elapsed_times else None
-        total_runtime_sec = sum(elapsed_times) if elapsed_times else None
-        total_space = len(original_tr.all_combinations)
-        executed_steps = len(steps)
-        skipped_steps = max(total_space - executed_steps, 0)
-        projected_runtime_sec = avg_step_duration_sec * total_space if avg_step_duration_sec is not None else None
-        saved_runtime_sec = (
-            max(projected_runtime_sec - total_runtime_sec, 0.0)
-            if projected_runtime_sec is not None and total_runtime_sec is not None
-            else None
-        )
-
-        metadata = load_system_metadata(iter_dir / str(best_step_data.step), self.results_root)
-        gpu_arch_label = metadata.system.gpu_arch_type if metadata else None
-        gpu_arch_family = _normalize_gpu_family(gpu_arch_label)
-        num_nodes = trd.nnodes
-        gpus_per_node = getattr(self.system, "gpus_per_node", None)
-        total_gpu_hours = (
-            (total_runtime_sec / 3600.0) * num_nodes * gpus_per_node
-            if total_runtime_sec is not None and gpus_per_node is not None
-            else None
-        )
-        projected_gpu_hours = (
-            (projected_runtime_sec / 3600.0) * num_nodes * gpus_per_node
-            if projected_runtime_sec is not None and gpus_per_node is not None
-            else None
-        )
-        saved_gpu_hours = (
-            max(projected_gpu_hours - total_gpu_hours, 0.0)
-            if projected_gpu_hours is not None and total_gpu_hours is not None
-            else None
-        )
-        estimated_saved_cost_usd = (
-            saved_gpu_hours * GPU_HOURLY_COST_USD[gpu_arch_family]
-            if saved_gpu_hours is not None and gpu_arch_family in GPU_HOURLY_COST_USD
-            else None
-        )
-
-        failure_count = sum(1 for step in steps if not step.is_successful)
-        best_action = best_step_data.action
-        parameter_rows = [
-            DSEParameterRow(
-                name=name,
-                values=[_format_scalar(value) for value in values],
-                best_value=_format_scalar(best_action.get(name, "n/a")),
-            )
-            for name, values in original_tr.param_space.items()
-        ]
-        analysis_file = iter_dir / "analysis.csv"
-
-        return DSESummary(
-            name=original_tr.name,
-            description=original_tr.test.description,
-            iteration=iteration,
-            output_root=iter_dir,
-            output_root_rel_path=f"./{iter_dir.relative_to(self.results_root)}",
-            total_space=total_space,
-            executed_steps=executed_steps,
-            skipped_steps=skipped_steps,
-            best_step=best_step_data.step,
-            best_reward=best_step_data.reward,
-            avg_step_duration_sec=avg_step_duration_sec,
-            total_runtime_sec=total_runtime_sec,
-            saved_runtime_sec=saved_runtime_sec,
-            failure_count=failure_count,
-            gpu_arch_label=gpu_arch_label,
-            saved_gpu_hours=saved_gpu_hours,
-            estimated_saved_cost_usd=estimated_saved_cost_usd,
-            best_config_rel_path=f"./{best_config_path.relative_to(self.results_root)}",
-            best_config_toml=best_config_toml,
-            analysis_rel_path=f"./{analysis_file.relative_to(self.results_root)}" if analysis_file.exists() else None,
-            parameter_rows=parameter_rows,
-            reward_chart_data=_build_reward_chart_data(steps),
-            effort_chart_data=_build_effort_chart_data(executed_steps, total_space),
-        )
-
-    @staticmethod
-    def _step_elapsed_time(step_dir: Path) -> int | None:
-        slurm_job_path = step_dir / "slurm-job.toml"
-        if not slurm_job_path.exists():
-            return None
-
-        with slurm_job_path.open() as f:
-            metadata = _ReportJobMetadata.model_validate(toml.load(f))
-        return metadata.elapsed_time_sec
diff --git a/src/cloudai/report_generator/util.py b/src/cloudai/report_generator/util.py
index ccb1af7d6..53c2c7b43 100644
--- a/src/cloudai/report_generator/util.py
+++ b/src/cloudai/report_generator/util.py
@@ -15,9 +15,14 @@
 # limitations under the License.
 from __future__ import annotations
 
+import logging
+from pathlib import Path
 from typing import TYPE_CHECKING, List, Tuple
 
+import toml
+
 from cloudai.core import TestRun
+from cloudai.systems.slurm import SlurmSystemMetadata
 from cloudai.util.lazy_imports import lazy
 
 if TYPE_CHECKING:
@@ -178,3 +183,27 @@ def diff_test_runs(trs: list[TestRun]) -> dict[str, list[str]]:
             diff[key] = all_values
 
     return diff
+
+
+def load_system_metadata(run_dir: Path, results_root: Path) -> SlurmSystemMetadata | None:
+    metadata_path = run_dir / "metadata"
+    if not metadata_path.exists():
+        logging.debug(f"No metadata folder found in {run_dir=}")
+        fallback_metadata_path = results_root / "metadata"
+        if not fallback_metadata_path.exists():
+            logging.debug(f"No metadata folder found in {results_root=}")
+            return None
+        metadata_path = fallback_metadata_path
+
+    node_files = list(metadata_path.glob("node-*.toml"))
+    if not node_files:
+        logging.debug(f"No node files found in {metadata_path}")
+        return None
+
+    with node_files[0].open() as f:
+        try:
+            return SlurmSystemMetadata.model_validate(toml.load(f))
+        except Exception as exc:
+            logging.debug(f"Error validating metadata for {node_files[0]}: {exc}")
+            return None
+
diff --git a/src/cloudai/reporter.py b/src/cloudai/reporter.py
index a754a822a..98a8713d1 100644
--- a/src/cloudai/reporter.py
+++ b/src/cloudai/reporter.py
@@ -17,23 +17,45 @@
 import contextlib
 import logging
 import tarfile
-from collections import defaultdict
+from dataclasses import dataclass
 from pathlib import Path
+from typing import Optional
 
 import jinja2
+import toml
 from rich import box
 from rich.console import Console
 from rich.table import Table
 
-from cloudai.core import Reporter, TestRun
-from cloudai.report_generator.status_report import (
-    DSEReportBuilder,
-    DSESummary,
-    ReportItem,
-    format_duration,
-    format_float,
-    format_money,
-)
+from cloudai.util.lazy_imports import lazy
+
+from .core import CommandGenStrategy, Reporter, TestRun, case_name
+from .models.scenario import TestRunDetails
+from cloudai.report_generator.dse_report import build_dse_summaries
+from cloudai.report_generator.util import load_system_metadata
+
+
+@dataclass
+class ReportItem:
+    """Enhanced report item for Slurm systems with node information."""
+
+    name: str
+    description: str
+    logs_path: Optional[str] = None
+    nodes: Optional[str] = None
+
+    @classmethod
+    def from_test_runs(cls, test_runs: list[TestRun], results_root: Path) -> list["ReportItem"]:
+        report_items: list[ReportItem] = []
+        for tr in test_runs:
+            ri = ReportItem(case_name(tr), tr.test.description)
+            if tr.output_path.exists():
+                ri.logs_path = f"./{tr.output_path.relative_to(results_root)}"
+            if metadata := load_system_metadata(tr.output_path, results_root):
+                ri.nodes = metadata.slurm.node_list
+            report_items.append(ri)
+
+        return report_items
 
 
 class PerTestReporter(Reporter):
@@ -62,68 +84,55 @@ class StatusReporter(Reporter):
     """Generates HTML status reports with system-specific templates."""
 
     @property
-    def templates_dir(self) -> Path:
+    def template_file_path(self) -> Path:
         return Path(__file__).parent / "util"
 
+    @property
+    def template_file(self) -> str:
+        return "general-report.jinja2"
+
     def generate(self) -> None:
         self.load_test_runs()
+        self.generate_scenario_report()
+        self.report_best_dse_config()
+        self.print_summary()
 
-        dse_builder = DSEReportBuilder(self.system, self.results_root, self.trs)
-        dse_summaries = dse_builder.build(self.test_scenario.test_runs)
-
-        self.to_html(dse_summaries)
-        self.to_console(dse_summaries)
-
-    def to_html(self, dse_summaries: list[DSESummary]) -> None:
-        jinja_env = jinja2.Environment(loader=jinja2.FileSystemLoader(self.templates_dir))
-        template = jinja_env.get_template("general-report.jinja2")
+    def generate_scenario_report(self) -> None:
+        template = jinja2.Environment(loader=jinja2.FileSystemLoader(self.template_file_path)).get_template(
+            self.template_file
+        )
 
         report_items = ReportItem.from_test_runs(self.trs, self.results_root)
-        dse_cases = self._build_dse_cases(dse_summaries, report_items)
-        dse_case_names = {case["name"] for case in dse_cases}
-        dse_report_items = [item for item in report_items if item.group_name in dse_case_names]
-        standard_report_items = [item for item in report_items if item.group_name not in dse_case_names]
-        report = template.render(
-            name=self.test_scenario.name,
-            report_items=standard_report_items,
-            dse_cases=dse_cases,
-            dse_report_items=dse_report_items,
-            format_duration=format_duration,
-            format_float=format_float,
-            format_money=format_money,
-        )
+        report = template.render(name=self.test_scenario.name, report_items=report_items)
         report_path = self.results_root / f"{self.test_scenario.name}.html"
         with report_path.open("w") as f:
             f.write(report)
 
         logging.info(f"Generated scenario report at {report_path}")
 
-    def _build_dse_cases(self, dse_summaries: list[DSESummary], report_items: list[ReportItem]) -> list[dict[str, object]]:
-        summaries_by_name: dict[str, list[DSESummary]] = defaultdict(list)
-        for summary in dse_summaries:
-            summaries_by_name[summary.name].append(summary)
-
-        items_by_name: dict[str, list[ReportItem]] = defaultdict(list)
-        for item in report_items:
-            if item.is_dse:
-                items_by_name[item.group_name].append(item)
-
-        dse_case_names = []
+    def report_best_dse_config(self):
         for tr in self.test_scenario.test_runs:
-            if tr.is_dse_job and tr.name not in dse_case_names:
-                dse_case_names.append(tr.name)
-
-        return [
-            {
-                "name": case_name,
-                "summaries": summaries_by_name.get(case_name, []),
-                "report_items": items_by_name.get(case_name, []),
-            }
-            for case_name in dse_case_names
-            if summaries_by_name.get(case_name)
-        ]
-
-    def to_console(self, dse_summaries: list[DSESummary]):
+            if not tr.test.is_dse_job:
+                continue
+
+            tr_root = self.results_root / tr.name / f"{tr.current_iteration}"
+            trajectory_file = tr_root / "trajectory.csv"
+            if not trajectory_file.exists():
+                logging.warning(f"No trajectory file found for {tr.name} at {trajectory_file}")
+                continue
+
+            df = lazy.pd.read_csv(trajectory_file)
+            best_step = df.loc[df["reward"].idxmax()]["step"]
+            best_step_details = tr_root / f"{best_step}" / CommandGenStrategy.TEST_RUN_DUMP_FILE_NAME
+            with best_step_details.open() as f:
+                trd = TestRunDetails.model_validate(toml.load(f))
+
+            best_config_path = tr_root / f"{tr.name}.toml"
+            logging.info(f"Writing best config for {tr.name} to {best_config_path}")
+            with best_config_path.open("w") as f:
+                toml.dump(trd.test_definition.model_dump(), f)
+
+    def print_summary(self) -> None:
         if not self.trs:
             logging.debug("No test runs found, skipping summary.")
             return
@@ -132,31 +141,6 @@ def to_console(self, dse_summaries: list[DSESummary]):
         for col in ["Case", "Status", "Details"]:
             table.add_column(col, overflow="fold")
 
-        if dse_summaries:
-            self._add_dse_rows(dse_summaries, table)
-        else:
-            self._add_standard_rows(table)
-
-        console = Console()
-        with console.capture() as capture:
-            console.print(table)
-
-        logging.info(capture.get())
-
-    @staticmethod
-    def _add_dse_rows(dse_summaries: list[DSESummary], table: Table):
-        for summary in dse_summaries:
-            details = [
-                f"steps={summary.executed_steps}/{summary.total_space}",
-                f"best_step={summary.best_step}",
-                f"best_reward={format_float(summary.best_reward, 4)}",
-                f"failures={summary.failure_count}",
-            ]
-            if summary.best_config_rel_path:
-                details.append(summary.best_config_rel_path)
-            table.add_row(summary.description, f"[bold]{summary.status_style}[/bold]", "\n".join(details))
-
-    def _add_standard_rows(self, table: Table):
         for tr in self.trs:
             tr_status = tr.test.was_run_successful(tr)
             sts_text = f"[bold]{'[green]PASSED[/green]' if tr_status.is_successful else '[red]FAILED[/red]'}[/bold]"
@@ -164,7 +148,40 @@ def _add_standard_rows(self, table: Table):
             with contextlib.suppress(ValueError):
                 display_path = str(tr.output_path.absolute().relative_to(Path.cwd()))
             details_text = f"\n{tr_status.error_message}" if tr_status.error_message else ""
-            table.add_row(tr.name, sts_text, f"{display_path}{details_text}")
+            columns = [tr.name, sts_text, f"{display_path}{details_text}"]
+            table.add_row(*columns)
+
+        console = Console()
+        with console.capture() as capture:
+            console.print(table)  # doesn't print to stdout, captures only
+
+        logging.info(capture.get())
+
+
+class DSEReporter(Reporter):
+    @property
+    def templates_dir(self) -> Path:
+        return Path(__file__).parent / "util"
+
+    def generate(self) -> None:
+        self.load_test_runs()
+
+        dse_cases = build_dse_summaries(
+            system=self.system,
+            results_root=self.results_root,
+            loaded_test_runs=self.trs,
+            test_cases=self.test_scenario.test_runs,
+        )
+
+        jinja_env = jinja2.Environment(loader=jinja2.FileSystemLoader(self.templates_dir))
+        template = jinja_env.get_template("dse-report.jinja2")
+
+        report = template.render(scenario_name=self.test_scenario.name, dse_cases=dse_cases)
+        report_path = self.results_root / f"{self.test_scenario.name}-dse-report.html"
+        with report_path.open("w") as f:
+            f.write(report)
+
+        logging.info(f"Generated scenario report at {report_path}")
 
 
 class TarballReporter(Reporter):
diff --git a/src/cloudai/util/dse-report.jinja2 b/src/cloudai/util/dse-report.jinja2
new file mode 100644
index 000000000..ea7a57792
--- /dev/null
+++ b/src/cloudai/util/dse-report.jinja2
@@ -0,0 +1,415 @@
+{% extends "base-report.jinja2" %}
+
+{% block extra_head %}
+{% if dse_cases %}
+<script src="https://cdn.jsdelivr.net/npm/chart.js@4.4.3/dist/chart.umd.min.js"></script>
+{% endif %}
+<style>
+    .dse-summary {
+        margin: 0 0 2rem;
+    }
+    .dse-box {
+        border: 1px solid var(--nv-border);
+        border-radius: var(--radius-lg);
+        background: rgba(255, 255, 255, 0.98);
+        box-shadow: var(--nv-shadow);
+        margin-bottom: 1.4rem;
+        padding: 1.35rem;
+    }
+    .dse-header {
+        display: flex;
+        flex-wrap: wrap;
+        align-items: baseline;
+        justify-content: space-between;
+        gap: 0.8rem 1rem;
+        margin-bottom: 1rem;
+    }
+    .dse-header h2 {
+        margin: 0;
+    }
+    .dse-kpi-grid,
+    .dse-runtime-grid {
+        display: grid;
+        gap: 0.8rem;
+    }
+    .dse-kpi-grid {
+        grid-template-columns: repeat(2, minmax(0, 1fr));
+        margin-bottom: 0.9rem;
+    }
+    .dse-runtime-grid {
+        grid-template-columns: repeat(2, minmax(0, 1fr));
+    }
+    .metric-card {
+        padding: 0.95rem 1rem;
+        border-radius: var(--radius-md);
+        border: 1px solid rgba(17, 17, 17, 0.07);
+        background: #ffffff;
+    }
+    .metric-card--hero {
+        background: linear-gradient(180deg, rgba(248, 251, 244, 1), rgba(255, 255, 255, 1));
+        border-color: rgba(118, 185, 0, 0.24);
+        box-shadow: inset 0 3px 0 rgba(118, 185, 0, 0.88);
+    }
+    .metric-card--accent {
+        background: linear-gradient(180deg, rgba(245, 250, 238, 1), rgba(255, 255, 255, 1));
+        border-color: rgba(118, 185, 0, 0.28);
+        box-shadow: inset 0 3px 0 rgba(118, 185, 0, 0.92);
+    }
+    .metric-label {
+        color: var(--nv-muted);
+        font-size: 0.77rem;
+        text-transform: uppercase;
+        letter-spacing: 0.08em;
+    }
+    .metric-value {
+        margin-top: 0.3rem;
+        color: var(--nv-ink);
+        font-size: 1.45rem;
+        font-weight: 750;
+        line-height: 1.1;
+        letter-spacing: -0.03em;
+    }
+    .metric-card--accent .metric-value {
+        font-size: 1.8rem;
+        color: var(--nv-green-strong);
+    }
+    .best-config-preview {
+        border-radius: var(--radius-sm);
+        overflow: hidden;
+        border: 1px solid rgba(17, 17, 17, 0.08);
+        background: #ffffff;
+        margin-top: 1rem;
+    }
+    .best-config-preview summary {
+        display: flex;
+        align-items: center;
+        justify-content: space-between;
+        gap: 0.75rem;
+        list-style: none;
+        cursor: pointer;
+        padding: 0.9rem 1rem;
+        color: var(--nv-ink);
+        font-weight: 650;
+        background: #fbfcfa;
+    }
+    .best-config-preview summary::-webkit-details-marker {
+        display: none;
+    }
+    .best-config-summary-actions {
+        display: inline-flex;
+        align-items: center;
+        gap: 0.6rem;
+        margin-left: auto;
+    }
+    .action-button {
+        display: inline-flex;
+        align-items: center;
+        gap: 0.4rem;
+        padding: 0.55rem 0.9rem;
+        border-radius: 999px;
+        border: 1px solid rgba(118, 185, 0, 0.28);
+        background: #ffffff;
+        color: var(--nv-green-strong);
+        font-weight: 700;
+        cursor: pointer;
+    }
+    .action-button:hover {
+        background: var(--nv-green-soft);
+        text-decoration: none;
+    }
+    .best-config-preview pre {
+        max-height: 360px;
+        overflow: auto;
+        margin: 0;
+        padding: 1rem;
+        color: #1f2933;
+        background: #ffffff;
+        border-top: 1px solid rgba(17, 17, 17, 0.06);
+    }
+    .space-table th {
+        background: #f0f9de;
+    }
+    .value-cloud {
+        display: flex;
+        flex-wrap: wrap;
+        gap: 0.45rem;
+    }
+    .value-pill {
+        display: inline-flex;
+        align-items: center;
+        padding: 0.22rem 0.62rem;
+        border-radius: 999px;
+        background: rgba(255, 255, 255, 0.92);
+        border: 1px solid rgba(17, 17, 17, 0.08);
+        color: var(--nv-text);
+        font-weight: 650;
+        white-space: nowrap;
+    }
+    .value-pill--selected {
+        background: var(--nv-green-soft);
+        border-color: rgba(118, 185, 0, 0.30);
+        color: var(--nv-green-strong);
+    }
+    .chart-shell {
+        position: relative;
+        min-height: 260px;
+        height: 320px;
+    }
+    .chart-shell canvas {
+        display: block;
+        width: 100% !important;
+    }
+    .chart-fallback {
+        margin-top: 0.75rem;
+        color: var(--nv-muted);
+        font-size: 0.88rem;
+    }
+    .chart-shell.is-enhanced + .chart-fallback,
+    .chart-shell.is-enhanced ~ .chart-fallback {
+        display: none;
+    }
+    @media (max-width: 640px) {
+        .dse-kpi-grid,
+        .dse-runtime-grid {
+            grid-template-columns: 1fr;
+        }
+        .metric-value {
+            font-size: 1.35rem;
+        }
+        .metric-card--accent .metric-value {
+            font-size: 1.5rem;
+        }
+        .best-config-preview summary {
+            align-items: flex-start;
+            flex-direction: column;
+        }
+        .best-config-summary-actions {
+            margin-left: 0;
+        }
+    }
+</style>
+{% if dse_cases %}
+<script>
+    document.addEventListener("DOMContentLoaded", function () {
+        document.querySelectorAll(".js-copy-config").forEach((button) => {
+            button.addEventListener("click", async function () {
+                const target = document.getElementById(button.dataset.copyTarget);
+                if (!target) {
+                    return;
+                }
+                const originalText = button.textContent;
+                try {
+                    await navigator.clipboard.writeText(target.textContent || "");
+                    button.textContent = "Copied";
+                    setTimeout(() => {
+                        button.textContent = originalText;
+                    }, 1500);
+                } catch (_error) {
+                    button.textContent = "Copy failed";
+                    setTimeout(() => {
+                        button.textContent = originalText;
+                    }, 1500);
+                }
+            });
+        });
+
+        if (typeof Chart === "undefined") {
+            return;
+        }
+
+        Chart.defaults.font.family = '-apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, Oxygen, Ubuntu, sans-serif';
+        Chart.defaults.color = "#5f6b65";
+        Chart.defaults.borderColor = "rgba(57, 66, 78, 0.10)";
+
+        document.querySelectorAll(".js-reward-chart").forEach((canvas) => {
+            const dataNode = document.getElementById(canvas.dataset.chartDataId);
+            if (!dataNode) {
+                return;
+            }
+            const chartData = JSON.parse(dataNode.textContent);
+            const pointBackgroundColors = chartData.rewards.map((_, idx) =>
+                idx === chartData.best_index ? "#76b900" : "#39424e"
+            );
+            const pointBorderColors = chartData.rewards.map((_, idx) =>
+                idx === chartData.best_index ? "#76b900" : "#39424e"
+            );
+            const pointRadii = chartData.rewards.map((_, idx) =>
+                idx === chartData.best_index ? 5 : 3
+            );
+
+            new Chart(canvas, {
+                type: "line",
+                data: {
+                    labels: chartData.labels,
+                    datasets: [
+                        {
+                            label: "Observed reward",
+                            data: chartData.rewards,
+                            borderColor: "#39424e",
+                            backgroundColor: "rgba(57, 66, 78, 0.14)",
+                            pointBackgroundColor: pointBackgroundColors,
+                            pointBorderColor: pointBorderColors,
+                            pointRadius: pointRadii,
+                            pointHoverRadius: 6,
+                            borderWidth: 2,
+                            tension: 0.25,
+                            fill: true
+                        }
+                    ]
+                },
+                options: {
+                    responsive: true,
+                    maintainAspectRatio: false,
+                    interaction: {
+                        mode: "index",
+                        intersect: false
+                    },
+                    plugins: {
+                        legend: {
+                            display: false
+                        },
+                        tooltip: {
+                            callbacks: {
+                                afterBody: function (context) {
+                                    const idx = context[0].dataIndex;
+                                    const lines = ["Observation: " + (chartData.observations[idx] || "n/a")];
+                                    if (idx === chartData.best_index) {
+                                        lines.push("Best step");
+                                    }
+                                    return lines;
+                                }
+                            }
+                        }
+                    },
+                    scales: {
+                        x: {
+                            title: {
+                                display: true,
+                                text: "Step"
+                            }
+                        },
+                        y: {
+                            title: {
+                                display: true,
+                                text: "Reward"
+                            }
+                        }
+                    }
+                }
+            });
+            canvas.parentElement.classList.add("is-enhanced");
+        });
+    });
+</script>
+{% endif %}
+{% endblock %}
+
+{% block content %}
+{% if dse_cases %}
+    {% for summary in dse_cases %}
+    <section class="dse-summary">
+        <div class="dse-box">
+            <div class="dse-header">
+                <h2>{{ summary.name }}</h2>
+            </div>
+
+            <div class="dse-kpi-grid">
+                <div class="metric-card metric-card--hero">
+                    <div class="metric-label">Saved Time</div>
+                    <div class="metric-value">{{ summary.saved_time }}</div>
+                </div>
+                <div class="metric-card metric-card--hero">
+                    <div class="metric-label">Saved GPU-Hours</div>
+                    <div class="metric-value">{{ summary.saved_gpu_hours }}</div>
+                </div>
+                <div class="metric-card metric-card--accent">
+                    <div class="metric-label">Estimated Savings</div>
+                    <div class="metric-value">{{ summary.estimated_savings }}</div>
+                </div>
+                <div class="metric-card">
+                    <div class="metric-label">GPU Label</div>
+                    <div class="metric-value">{{ summary.gpu_label }}</div>
+                </div>
+            </div>
+
+            <div class="dse-runtime-grid">
+                <div class="metric-card">
+                    <div class="metric-label">Avg Step Runtime</div>
+                    <div class="metric-value">{{ summary.avg_step_runtime }}</div>
+                </div>
+                <div class="metric-card">
+                    <div class="metric-label">Observed Runtime</div>
+                    <div class="metric-value">{{ summary.observed_runtime }}</div>
+                </div>
+                <div class="metric-card">
+                    <div class="metric-label">Exploration Efficiency</div>
+                    <div class="metric-value">{{ summary.efficiency_ratio }}</div>
+                </div>
+                <div class="metric-card">
+                    <div class="metric-label">Explored Steps</div>
+                    <div class="metric-value">{{ summary.efficiency_steps }}</div>
+                </div>
+            </div>
+
+            {% if summary.best_config_toml %}
+            <details class="best-config-preview">
+                <summary>
+                    <span>Best Config TOML</span>
+                    <span class="best-config-summary-actions">
+                        <button type="button" class="action-button js-copy-config" data-copy-target="best-config-text-{{ loop.index0 }}">Copy TOML</button>
+                    </span>
+                </summary>
+                <pre id="best-config-text-{{ loop.index0 }}">{{ summary.best_config_toml }}</pre>
+            </details>
+            {% endif %}
+        </div>
+
+        <div class="dse-box">
+            <h3>DSE: Exploration Space</h3>
+            <table class="space-table">
+                <thead>
+                    <tr>
+                        <th>Parameter</th>
+                        <th>Allowed Values</th>
+                    </tr>
+                </thead>
+                <tbody>
+                    {% for row in summary.parameter_rows %}
+                    <tr>
+                        <td>{{ row.name }}</td>
+                        <td>
+                            <div class="value-cloud">
+                                {% for value in row.values %}
+                                <span class="value-pill {% if value.is_best %}value-pill--selected{% endif %}">{{ value.text }}</span>
+                                {% endfor %}
+                            </div>
+                        </td>
+                    </tr>
+                    {% endfor %}
+                </tbody>
+            </table>
+        </div>
+
+        <div class="dse-box">
+            <h3>DSE: Reward Over Steps</h3>
+            {% if summary.reward_chart_data %}
+                <div class="chart-shell">
+                    <canvas
+                        class="js-reward-chart"
+                        data-chart-data-id="reward-chart-data-{{ loop.index0 }}"
+                        aria-label="Line chart of reward over DSE steps"
+                    ></canvas>
+                </div>
+                <script type="application/json" id="reward-chart-data-{{ loop.index0 }}">{{ summary.reward_chart_data | tojson }}</script>
+                <p class="chart-fallback">Interactive chart unavailable. Numeric report details remain available above.</p>
+                <noscript><p class="chart-fallback">JavaScript is disabled. Numeric report details remain available without charts.</p></noscript>
+            {% else %}
+                <p>No reward data available.</p>
+            {% endif %}
+        </div>
+    </section>
+    {% endfor %}
+{% else %}
+    <p>No DSE results found.</p>
+{% endif %}
+{% endblock %}
diff --git a/src/cloudai/util/general-report.jinja2 b/src/cloudai/util/general-report.jinja2
index 6393988c9..b19189ca8 100644
--- a/src/cloudai/util/general-report.jinja2
+++ b/src/cloudai/util/general-report.jinja2
@@ -1,766 +1,28 @@
 {% extends "base-report.jinja2" %}
 
-{% block extra_head %}
-{% if dse_cases %}
-<script src="https://cdn.jsdelivr.net/npm/chart.js@4.4.3/dist/chart.umd.min.js"></script>
-{% endif %}
-<style>
-    .dse-summary {
-        margin: 0 0 3rem;
-    }
-    .dse-cases-shell {
-        margin: 1.5rem 0 2rem;
-        padding: 1.2rem 1.2rem 0.4rem;
-        border: 1px solid var(--nv-border);
-        border-radius: var(--radius-lg);
-        background: rgba(255, 255, 255, 0.98);
-        box-shadow: var(--nv-shadow);
-    }
-    .dse-cases-header {
-        margin-bottom: 1rem;
-    }
-    .dse-cases-header h2 {
-        margin: 0 0 0.25rem;
-    }
-    .dse-cases-subtitle {
-        margin: 0;
-        color: var(--nv-muted);
-        font-size: 0.95rem;
-    }
-    .dse-tabs {
-        margin: 0;
-    }
-    .dse-tab-list {
-        display: flex;
-        flex-wrap: wrap;
-        gap: 0.7rem;
-        margin-bottom: 1.15rem;
-        padding: 0.35rem;
-        border-radius: 999px;
-        background: #f5f7f2;
-        border: 1px solid rgba(17, 17, 17, 0.06);
-        width: fit-content;
-        max-width: 100%;
-    }
-    .dse-tab-button {
-        display: inline-flex;
-        align-items: center;
-        gap: 0.45rem;
-        padding: 0.58rem 0.95rem;
-        border-radius: 999px;
-        border: 1px solid rgba(17, 17, 17, 0.08);
-        background: transparent;
-        color: var(--nv-ink);
-        font-weight: 650;
-        cursor: pointer;
-    }
-    .dse-tab-button:hover {
-        background: rgba(255, 255, 255, 0.75);
-    }
-    .dse-tab-button.is-active {
-        border-color: rgba(118, 185, 0, 0.28);
-        background: #ffffff;
-        color: var(--nv-green-strong);
-        box-shadow: 0 1px 2px rgba(17, 17, 17, 0.06);
-    }
-    .dse-tab-panel {
-        display: none;
-    }
-    .dse-tab-panel.is-active {
-        display: block;
-    }
-    .overview-board,
-    .dse-box {
-        border: 1px solid var(--nv-border);
-        border-radius: var(--radius-lg);
-        background: rgba(255, 255, 255, 0.98);
-        box-shadow: var(--nv-shadow);
-    }
-    .overview-board {
-        position: relative;
-        margin-bottom: 1.5rem;
-        padding: 1.6rem;
-        overflow: hidden;
-    }
-    .overview-board::before {
-        content: "";
-        position: absolute;
-        top: 0;
-        left: 0;
-        right: 0;
-        height: 6px;
-        border-radius: var(--radius-lg) var(--radius-lg) 0 0;
-        background: linear-gradient(90deg, var(--nv-green), var(--nv-green-bright));
-        pointer-events: none;
-    }
-    .overview-topline {
-        display: flex;
-        flex-wrap: wrap;
-        align-items: center;
-        gap: 0.8rem 1rem;
-        margin-bottom: 0.85rem;
-    }
-    .overview-board h2 {
-        margin: 0;
-        color: var(--nv-ink);
-    }
-    .status-pill {
-        display: inline-flex;
-        align-items: center;
-        gap: 0.45rem;
-        padding: 0.28rem 0.8rem;
-        border-radius: 999px;
-        border: 1px solid rgba(17, 17, 17, 0.08);
-        background: #ffffff;
-        color: var(--nv-ink);
-        font-size: 0.8rem;
-        font-weight: 700;
-        text-transform: uppercase;
-        letter-spacing: 0.06em;
-    }
-    .status-pill--passed {
-        background: rgba(118, 185, 0, 0.10);
-        border-color: rgba(118, 185, 0, 0.22);
-    }
-    .status-pill--partial {
-        background: rgba(250, 204, 21, 0.16);
-        border-color: rgba(250, 204, 21, 0.34);
-    }
-    .status-pill--failed {
-        background: rgba(244, 63, 94, 0.14);
-        border-color: rgba(244, 63, 94, 0.30);
-    }
-    .overview-layout {
-        display: grid;
-        grid-template-columns: minmax(0, 1fr) minmax(320px, 0.92fr);
-        gap: 1rem;
-        align-items: start;
-    }
-    .overview-left {
-        display: flex;
-        flex-direction: column;
-        gap: 1rem;
-    }
-    .impact-stat-grid,
-    .context-strip {
-        display: grid;
-        gap: 0.8rem;
-    }
-    .impact-stat-grid {
-        grid-template-columns: repeat(2, minmax(0, 1fr));
-    }
-    .context-strip {
-        grid-template-columns: repeat(2, minmax(0, 1fr));
-    }
-    .summary-stat-grid {
-        display: flex;
-        flex-direction: column;
-        gap: 0.9rem;
-    }
-    .metric-card {
-        padding: 0.95rem 1rem;
-        border-radius: var(--radius-md);
-        border: 1px solid rgba(17, 17, 17, 0.07);
-        background: #ffffff;
-    }
-    .metric-card--hero {
-        background: linear-gradient(180deg, rgba(248, 251, 244, 1), rgba(255, 255, 255, 1));
-        border-color: rgba(118, 185, 0, 0.24);
-        box-shadow: inset 0 3px 0 rgba(118, 185, 0, 0.88);
-    }
-    .metric-card--accent {
-        background: linear-gradient(180deg, rgba(245, 250, 238, 1), rgba(255, 255, 255, 1));
-        border-color: rgba(118, 185, 0, 0.28);
-        box-shadow: inset 0 3px 0 rgba(118, 185, 0, 0.92);
-    }
-    .metric-card--accent .metric-value {
-        font-size: 1.8rem;
-        color: var(--nv-green-strong);
-    }
-    .metric-label {
-        display: flex;
-        align-items: center;
-        gap: 0.45rem;
-        color: var(--nv-muted);
-        font-size: 0.77rem;
-        text-transform: uppercase;
-        letter-spacing: 0.08em;
-    }
-    .metric-value {
-        margin-top: 0.3rem;
-        color: var(--nv-ink);
-        font-size: 1.45rem;
-        font-weight: 750;
-        line-height: 1.1;
-        letter-spacing: -0.03em;
-    }
-    .context-item {
-        padding: 0.85rem 0.95rem;
-        border-radius: var(--radius-md);
-        border: 1px solid rgba(17, 17, 17, 0.07);
-        background: #ffffff;
-    }
-    .context-item--runtime {
-        background: #fbfcfa;
-    }
-    .label {
-        color: var(--nv-muted);
-        display: block;
-        font-size: 0.78rem;
-        text-transform: uppercase;
-        letter-spacing: 0.06em;
-    }
-    .value {
-        color: var(--nv-ink);
-        font-weight: 650;
-    }
-    .effort-block {
-        display: flex;
-        flex-direction: column;
-        align-self: start;
-        padding: 1rem 1.05rem;
-        border-radius: var(--radius-md);
-        border: 1px solid rgba(17, 17, 17, 0.07);
-        background: linear-gradient(180deg, #fcfdfb, #ffffff);
-    }
-    .effort-head {
-        display: flex;
-        flex-wrap: wrap;
-        align-items: baseline;
-        justify-content: space-between;
-        gap: 0.5rem 1rem;
-        margin-bottom: 0.65rem;
-    }
-    .effort-head h3 {
-        margin: 0;
-    }
-    .efficiency-panel {
-        display: flex;
-        flex-direction: column;
-        gap: 0.8rem;
-        width: 100%;
-    }
-    .efficiency-steps {
-        color: var(--nv-muted);
-        font-size: 0.95rem;
-        font-weight: 650;
-    }
-    .efficiency-callout {
-        display: flex;
-        align-items: baseline;
-        gap: 0.55rem;
-        flex-wrap: wrap;
-        padding: 0;
-    }
-    .efficiency-ratio {
-        color: var(--nv-green-strong);
-        font-size: 2rem;
-        font-weight: 800;
-        letter-spacing: -0.04em;
-    }
-    .efficiency-ratio-note {
-        color: var(--nv-ink);
-        font-size: 1rem;
-        font-weight: 650;
-        line-height: 1.2;
-    }
-    .dse-box {
-        margin-top: 1.15rem;
-        padding: 1.2rem 1.3rem;
-    }
-    .action-button {
-        display: inline-flex;
-        align-items: center;
-        gap: 0.4rem;
-        padding: 0.55rem 0.9rem;
-        border-radius: 999px;
-        border: 1px solid rgba(118, 185, 0, 0.28);
-        background: #ffffff;
-        color: var(--nv-green-strong);
-        font-weight: 700;
-        cursor: pointer;
-    }
-    .action-button:hover {
-        background: var(--nv-green-soft);
-        text-decoration: none;
-    }
-    .best-config-preview {
-        border-radius: var(--radius-sm);
-        overflow: hidden;
-        border: 1px solid rgba(17, 17, 17, 0.08);
-        background: #ffffff;
-        margin-top: 1.15rem;
-    }
-    .best-config-preview summary {
-        display: flex;
-        align-items: center;
-        justify-content: space-between;
-        gap: 0.75rem;
-        list-style: none;
-        cursor: pointer;
-        padding: 0.9rem 1rem;
-        color: var(--nv-ink);
-        font-weight: 650;
-        background: #fbfcfa;
-    }
-    .best-config-preview summary::-webkit-details-marker {
-        display: none;
-    }
-    .best-config-summary-title {
-        display: inline-flex;
-        align-items: center;
-        gap: 0.55rem;
-    }
-    .best-config-summary-actions {
-        display: inline-flex;
-        align-items: center;
-        gap: 0.6rem;
-        margin-left: auto;
-    }
-    .best-config-preview pre {
-        max-height: 360px;
-        overflow: auto;
-        margin: 0;
-        padding: 1rem;
-        color: #1f2933;
-        background: #ffffff;
-        border-top: 1px solid rgba(17, 17, 17, 0.06);
-    }
-    .space-table th,
-    .steps-table th {
-        background: #f0f9de;
-    }
-    .value-cloud {
-        display: flex;
-        flex-wrap: wrap;
-        gap: 0.45rem;
-    }
-    .value-pill {
-        display: inline-flex;
-        align-items: center;
-        padding: 0.22rem 0.62rem;
-        border-radius: 999px;
-        background: rgba(255, 255, 255, 0.92);
-        border: 1px solid rgba(17, 17, 17, 0.08);
-        color: var(--nv-text);
-        font-weight: 650;
-        white-space: nowrap;
-    }
-    .value-pill--selected {
-        background: var(--nv-green-soft);
-        border-color: rgba(118, 185, 0, 0.30);
-        color: var(--nv-green-strong);
-    }
-    .small-note {
-        color: var(--nv-muted);
-        font-size: 0.92rem;
-        margin-top: 0;
-    }
-    .viz-card {
-        background: rgba(255, 255, 255, 0.98);
-    }
-    .chart-shell {
-        position: relative;
-        min-height: 260px;
-        height: 320px;
-    }
-    .chart-shell canvas {
-        display: block;
-        width: 100% !important;
-    }
-    .chart-fallback {
-        margin-top: 0.75rem;
-        color: var(--nv-muted);
-        font-size: 0.88rem;
-    }
-    .chart-shell.is-enhanced + .chart-fallback,
-    .chart-shell.is-enhanced ~ .chart-fallback {
-        display: none;
-    }
-    .steps-table tbody tr:nth-child(even),
-    .space-table tbody tr:nth-child(even) {
-        background: rgba(118, 185, 0, 0.05);
-    }
-    .steps-table tbody tr:hover,
-    .space-table tbody tr:hover {
-        background: rgba(118, 185, 0, 0.10);
-    }
-    @media (max-width: 640px) {
-        .overview-board,
-        .dse-box {
-            padding: 1.1rem;
-        }
-        .metric-value {
-            font-size: 1.35rem;
-        }
-        .overview-layout {
-            grid-template-columns: 1fr;
-        }
-        .impact-stat-grid,
-        .context-strip {
-            grid-template-columns: 1fr;
-        }
-        .chart-shell {
-            height: 280px;
-        }
-        .metric-card--accent .metric-value,
-        .efficiency-ratio {
-            font-size: 1.45rem;
-        }
-        .best-config-preview summary {
-            align-items: flex-start;
-            flex-direction: column;
-        }
-        .best-config-summary-actions {
-            margin-left: 0;
-        }
-    }
-</style>
-{% if dse_cases %}
-<script>
-    document.addEventListener("DOMContentLoaded", function () {
-        document.querySelectorAll(".js-copy-config").forEach((button) => {
-            button.addEventListener("click", async function () {
-                const target = document.getElementById(button.dataset.copyTarget);
-                if (!target) {
-                    return;
-                }
-                const originalText = button.textContent;
-                try {
-                    await navigator.clipboard.writeText(target.textContent || "");
-                    button.textContent = "Copied";
-                    setTimeout(() => {
-                        button.textContent = originalText;
-                    }, 1500);
-                } catch (_error) {
-                    button.textContent = "Copy failed";
-                    setTimeout(() => {
-                        button.textContent = originalText;
-                    }, 1500);
-                }
-            });
-        });
-
-        document.querySelectorAll(".js-dse-tabs").forEach((root) => {
-            const buttons = root.querySelectorAll(".js-dse-tab-button");
-            const panels = root.querySelectorAll(".js-dse-tab-panel");
-            buttons.forEach((button) => {
-                button.addEventListener("click", function () {
-                    const target = button.dataset.tabTarget;
-                    buttons.forEach((candidate) => candidate.classList.toggle("is-active", candidate === button));
-                    panels.forEach((panel) => panel.classList.toggle("is-active", panel.dataset.tabPanel === target));
-                });
-            });
-        });
-
-        if (typeof Chart === "undefined") {
-            return;
-        }
-
-        Chart.defaults.font.family = '-apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, Oxygen, Ubuntu, sans-serif';
-        Chart.defaults.color = "#5f6b65";
-        Chart.defaults.borderColor = "rgba(57, 66, 78, 0.10)";
-
-        const rewardCanvases = document.querySelectorAll(".js-reward-chart");
-        rewardCanvases.forEach((canvas) => {
-            const dataNode = document.getElementById(canvas.dataset.chartDataId);
-            if (!dataNode) {
-                return;
-            }
-            const chartData = JSON.parse(dataNode.textContent);
-            const pointBackgroundColors = chartData.rewards.map((_, idx) =>
-                idx === chartData.best_index ? "#76b900" : "#39424e"
-            );
-            const pointBorderColors = chartData.rewards.map((_, idx) =>
-                idx === chartData.best_index ? "#76b900" : "#39424e"
-            );
-            const pointRadii = chartData.rewards.map((_, idx) =>
-                idx === chartData.best_index ? 5 : 3
-            );
-            new Chart(canvas, {
-                type: "line",
-                data: {
-                    labels: chartData.labels,
-                    datasets: [
-                        {
-                            label: "Observed reward",
-                            data: chartData.rewards,
-                            borderColor: "#39424e",
-                            backgroundColor: "rgba(57, 66, 78, 0.14)",
-                            pointBackgroundColor: pointBackgroundColors,
-                            pointBorderColor: pointBorderColors,
-                            pointRadius: pointRadii,
-                            pointHoverRadius: 6,
-                            borderWidth: 2,
-                            tension: 0.25,
-                            fill: true
-                        }
-                    ]
-                },
-                options: {
-                    responsive: true,
-                    maintainAspectRatio: false,
-                    interaction: {
-                        mode: "index",
-                        intersect: false
-                    },
-                    plugins: {
-                        legend: {
-                            display: false
-                        },
-                        tooltip: {
-                            callbacks: {
-                                afterBody: function (context) {
-                                    const idx = context[0].dataIndex;
-                                    const lines = ["Observation: " + (chartData.observations[idx] || "n/a")];
-                                    if (idx === chartData.best_index) {
-                                        lines.push("Best step");
-                                    }
-                                    return lines;
-                                }
-                            }
-                        }
-                    },
-                    scales: {
-                        x: {
-                            title: {
-                                display: true,
-                                text: "Step"
-                            }
-                        },
-                        y: {
-                            title: {
-                                display: true,
-                                text: "Reward"
-                            }
-                        }
-                    }
-                }
-            });
-            canvas.parentElement.classList.add("is-enhanced");
-        });
-
-    });
-</script>
-{% endif %}
-{% endblock %}
-
 {% block content %}
-{% if dse_cases %}
-    <section class="dse-cases-shell">
-        <div class="dse-cases-header">
-            <h2>DSE Cases</h2>
-            <p class="dse-cases-subtitle">Switch between DSE test cases in this scenario.</p>
-        </div>
-        <div class="dse-tabs js-dse-tabs">
-            <div class="dse-tab-list" role="tablist" aria-label="DSE test cases">
-                {% for case in dse_cases %}
-                <button
-                    type="button"
-                    class="dse-tab-button js-dse-tab-button {% if loop.first %}is-active{% endif %}"
-                    data-tab-target="dse-case-{{ loop.index0 }}"
-                    role="tab"
-                    aria-selected="{{ 'true' if loop.first else 'false' }}"
-                >
-                    {{ case.name }}
-                </button>
-                {% endfor %}
-            </div>
-
-            {% for case in dse_cases %}
-            <div
-                class="dse-tab-panel js-dse-tab-panel {% if loop.first %}is-active{% endif %}"
-                data-tab-panel="dse-case-{{ loop.index0 }}"
-            >
-                {% set case_idx = loop.index0 %}
-                {% for summary in case.summaries %}
-                <section class="dse-summary">
-                    <div class="overview-board">
-                        <div class="overview-topline">
-                            <h2>DSE: overview</h2>
-                            <span class="status-pill status-pill--{{ summary.status_text | lower }}">{{ summary.status_text }}</span>
-                        </div>
-
-                        <div class="overview-layout">
-                            <div class="overview-left">
-                                <div class="summary-stat-grid">
-                                    <div class="impact-stat-grid">
-                                        <div class="metric-card metric-card--hero">
-                                            <div class="metric-label">Saved Time</div>
-                                            <div class="metric-value">{{ format_duration(summary.saved_runtime_sec) }}</div>
-                                        </div>
-                                        <div class="metric-card metric-card--hero">
-                                            <div class="metric-label">Saved GPU-Hours</div>
-                                            <div class="metric-value">{{ format_float(summary.saved_gpu_hours, 2) }}</div>
-                                        </div>
-                                    </div>
-
-                                    <div class="impact-stat-grid">
-                                        <div class="metric-card metric-card--accent">
-                                            <div class="metric-label">Estimated Savings</div>
-                                            <div class="metric-value">{{ format_money(summary.estimated_saved_cost_usd) }}</div>
-                                        </div>
-                                        <div class="context-item"><span class="label">GPU Label</span><span class="value">{{ summary.gpu_arch_label or "unknown" }}</span></div>
-                                    </div>
-
-                                    <div class="context-strip">
-                                        <div class="context-item context-item--runtime"><span class="label">Avg Step Runtime</span><span class="value">{{ format_duration(summary.avg_step_duration_sec) }}</span></div>
-                                        <div class="context-item context-item--runtime"><span class="label">Observed Runtime</span><span class="value">{{ format_duration(summary.total_runtime_sec) }}</span></div>
-                                    </div>
-                                </div>
-                            </div>
-                            {% if summary.effort_chart_data %}
-                            <div class="effort-block">
-                                <div class="effort-head">
-                                    <h3>Exploration Efficiency</h3>
-                                </div>
-                                <div class="efficiency-panel" aria-label="Efficiency summary for explored steps versus total search space">
-                                    <div class="efficiency-callout">
-                                        <div class="efficiency-ratio">~{{ format_float(summary.effort_chart_data["reduction_factor"], 1) }}x</div>
-                                        <div class="efficiency-ratio-note">reduction in search space</div>
-                                    </div>
-                                    <div class="efficiency-steps">{{ "{:,}".format(summary.effort_chart_data["executed_steps"]) }} / {{ "{:,}".format(summary.effort_chart_data["total_space"]) }} steps</div>
-                                </div>
-                            </div>
-                            {% endif %}
-                        </div>
-
-                        {% if summary.best_config_toml %}
-                        <details class="best-config-preview">
-                            <summary>
-                                <span class="best-config-summary-title">Best Config TOML</span>
-                                <span class="best-config-summary-actions">
-                                    {% if summary.analysis_rel_path %}<a href="{{ summary.analysis_rel_path }}">BO Analysis</a>{% endif %}
-                                    <button type="button" class="action-button js-copy-config" data-copy-target="best-config-text-{{ case_idx }}-{{ loop.index0 }}">Copy TOML</button>
-                                </span>
-                            </summary>
-                            <pre id="best-config-text-{{ case_idx }}-{{ loop.index0 }}">{{ summary.best_config_toml }}</pre>
-                        </details>
-                        {% endif %}
-                    </div>
-
-                    <div class="dse-box">
-                        <h3>DSE: Exploration Space</h3>
-                        <table class="space-table">
-                            <thead>
-                                <tr>
-                                    <th>Parameter</th>
-                                    <th>Allowed Values</th>
-                                </tr>
-                            </thead>
-                            <tbody>
-                                {% for row in summary.parameter_rows %}
-                                <tr>
-                                    <td>{{ row.name }}</td>
-                                    <td>
-                                        <div class="value-cloud">
-                                            {% for value in row.values %}
-                                            <span class="value-pill {% if value == row.best_value %}value-pill--selected{% endif %}">{{ value }}</span>
-                                            {% endfor %}
-                                        </div>
-                                    </td>
-                                </tr>
-                                {% endfor %}
-                            </tbody>
-                        </table>
-                    </div>
-
-                    <div class="dse-box viz-card">
-                        <h3>DSE: Reward Over Steps</h3>
-                        {% if summary.reward_chart_data %}
-                            <div class="chart-shell">
-                                <canvas
-                                    class="js-reward-chart"
-                                    data-chart-data-id="reward-chart-data-{{ case_idx }}-{{ loop.index0 }}"
-                                    aria-label="Line chart of reward over DSE steps"
-                                ></canvas>
-                            </div>
-                            <script type="application/json" id="reward-chart-data-{{ case_idx }}-{{ loop.index0 }}">{{ summary.reward_chart_data | tojson }}</script>
-                            <p class="chart-fallback">Interactive chart unavailable. Step count and summary metrics remain available above.</p>
-                            <noscript><p class="chart-fallback">JavaScript is disabled. Numeric report details remain available without charts.</p></noscript>
-                        {% else %}
-                            <p>No reward data available.</p>
-                        {% endif %}
-                    </div>
-                </section>
-                {% endfor %}
-
-            </div>
-            {% endfor %}
-        </div>
-    </section>
-{% endif %}
-
-{% if dse_report_items %}
-    <div class="dse-box">
-        <h3>All Steps</h3>
-        <table class="steps-table">
-            <thead>
-                <tr>
-                    <th>Case</th>
-                    <th>Status</th>
-                    <th>Results</th>
-                    <th>Nodes</th>
-                </tr>
-            </thead>
-            <tbody>
-                {% for item in dse_report_items %}
-                <tr>
-                    <td>{{ item.name }}</td>
-                    <td>
-                        {% if item.status_text %}
-                            <span class="status-pill status-pill--{{ item.status_class }}">{{ item.status_text }}</span>
-                        {% else %}
-                            unknown
-                        {% endif %}
-                    </td>
-                    <td>
-                        {% if item.logs_path %}
-                            <a href="{{ item.logs_path }}">logs</a>
-                        {% else %}
-                            no logs
-                        {% endif %}
-                    </td>
-                    <td>
-                        {% if item.nodes is not none %}
-                            {{ item.nodes.slurm.node_list }}
-                        {% else %}
-                            no nodes information
-                        {% endif %}
-                    </td>
-                </tr>
-                {% endfor %}
-            </tbody>
-        </table>
-    </div>
-{% endif %}
-
-{% if report_items %}
-    <table>
-        <tr>
-            <th>Test</th>
-            <th>Description</th>
-            <th>Results</th>
-            {% if report_items | selectattr('nodes') | first is not none %}
-              <th>Nodes</th>
-            {% endif %}
-        </tr>
-        {% for item in report_items %}
-        <tr>
-            <td>{{ item.name }}</td>
-            <td>{{ item.description }}</td>
-            {% if item.logs_path %}
-                <td><a href="{{ item.logs_path }}">logs</a></td>
-            {% else %}
-                <td>no logs</td>
-            {% endif %}
-            {% if item.nodes is not none %}
-                <td>{{ item.nodes }}</td>
-            {% else %}
-                <td>no nodes information</td>
-            {% endif %}
-        </tr>
-        {% endfor %}
-    </table>
-{% endif %}
-{% endblock %}
+<table>
+    <tr>
+        <th>Test</th>
+        <th>Description</th>
+        <th>Results</th>
+        <th>Nodes</th>
+    </tr>
+    {% for item in report_items %}
+    <tr>
+        <td>{{ item.name }}</td>
+        <td>{{ item.description }}</td>
+        {% if item.logs_path %}
+            <td><a href="{{ item.logs_path }}">logs</a></td>
+        {% else %}
+            <td>no logs</td>
+        {% endif %}
+        {% if item.nodes %}
+            <td>{{ item.nodes }}</td>
+        {% else %}
+            <td>No nodes info</td>
+        {% endif %}
+    </tr>
+    {% endfor %}
+</table>
+{% endblock %}
\ No newline at end of file
diff --git a/tests/test_reporter.py b/tests/test_reporter.py
index a38718a72..bb1d3ff3b 100644
--- a/tests/test_reporter.py
+++ b/tests/test_reporter.py
@@ -229,7 +229,7 @@ def test_template_file_path(system: System) -> None:
     reporter = StatusReporter(
         system, TestScenario(name="test_scenario", test_runs=[]), system.output_path, ReportConfig()
     )
-    assert (reporter.templates_dir / "general-report.jinja2").exists()
+    assert (reporter.templates_dir / "dse-report.jinja2").exists()
 
 
 MY_REPORT_CALLED = 0
@@ -453,7 +453,6 @@ def test_dse_summary_and_best_config_artifacts(slurm_system: SlurmSystem, slurm_
     assert summary.saved_runtime_sec == pytest.approx(100.0)
     assert summary.saved_gpu_hours == pytest.approx((100.0 / 3600.0) * 16)
     assert summary.estimated_saved_cost_usd == pytest.approx((summary.saved_gpu_hours or 0) * 4.5)
-    assert summary.analysis_rel_path is not None
     assert summary.best_config_rel_path == f"./{dse_tr.name}/0/{dse_tr.name}.toml"
     assert summary.reward_chart_data is not None
     assert summary.reward_chart_data["labels"] == [1, 2, 3]

From 5c887a5356a899d27986ec9964a5a22f9d69c945 Mon Sep 17 00:00:00 2001
From: Ivan Podkidyshev <ipodkidyshev@nvidia.com>
Date: Tue, 24 Mar 2026 22:16:42 +0100
Subject: [PATCH 17/30] we're back to working state

---
 src/cloudai/report_generator/dse_report.py |  12 +-
 src/cloudai/util/dse-report.jinja2         | 292 ++++++++++++++-------
 2 files changed, 202 insertions(+), 102 deletions(-)

diff --git a/src/cloudai/report_generator/dse_report.py b/src/cloudai/report_generator/dse_report.py
index 22f981a14..eb51d82b5 100644
--- a/src/cloudai/report_generator/dse_report.py
+++ b/src/cloudai/report_generator/dse_report.py
@@ -61,7 +61,7 @@ class DSEStepRow:
 
 
 @dataclass(frozen=True)
-class DSERunSummary:
+class DSECaseIterationSummary:
     name: str
     saved_time: str
     saved_gpu_hours: str
@@ -184,7 +184,7 @@ def _build_iteration_summary(
     iteration: int,
     iteration_dir: Path,
     test_runs: list[TestRun],
-) -> DSERunSummary | None:
+) -> DSECaseIterationSummary | None:
     trajectory_file = iteration_dir / "trajectory.csv"
     if not trajectory_file.is_file():
         logging.warning(f"No trajectory file found for {test_case.name} at {trajectory_file}")
@@ -271,7 +271,7 @@ def _build_iteration_summary(
 
     reduction_factor = total_space / max(executed_steps, 1)
 
-    return DSERunSummary(
+    return DSECaseIterationSummary(
         name=f"{test_case.name}-{iteration}",
         saved_time=format_duration(saved_runtime_sec),
         saved_gpu_hours=format_float(saved_gpu_hours, 2),
@@ -292,8 +292,8 @@ def build_dse_summaries(
     results_root: Path,
     loaded_test_runs: list[TestRun],
     test_cases: list[TestRun],
-) -> list[DSERunSummary]:
-    result: list[DSERunSummary] = []
+) -> list[DSECaseIterationSummary]:
+    result: list[DSECaseIterationSummary] = []
 
     for test_case in test_cases:
         if not test_case.is_dse_job:
@@ -307,7 +307,7 @@ def build_dse_summaries(
             dse_iteration_runs = [
                 tr
                 for tr in loaded_test_runs
-                if tr.name == test_case.name and tr.current_iteration != iteration
+                if tr.name == test_case.name and tr.current_iteration == iteration
             ]
 
             iteration_dir = case_root / str(iteration)
diff --git a/src/cloudai/util/dse-report.jinja2 b/src/cloudai/util/dse-report.jinja2
index ea7a57792..f0157d08f 100644
--- a/src/cloudai/util/dse-report.jinja2
+++ b/src/cloudai/util/dse-report.jinja2
@@ -6,7 +6,68 @@
 {% endif %}
 <style>
     .dse-summary {
-        margin: 0 0 2rem;
+        margin: 0;
+    }
+    .dse-cases-shell {
+        margin: 1.5rem 0 2rem;
+        padding: 1.2rem 1.2rem 0.4rem;
+        border: 1px solid var(--nv-border);
+        border-radius: var(--radius-lg);
+        background: rgba(255, 255, 255, 0.98);
+        box-shadow: var(--nv-shadow);
+    }
+    .dse-cases-header {
+        margin-bottom: 1rem;
+    }
+    .dse-cases-header h2 {
+        margin: 0 0 0.25rem;
+    }
+    .dse-cases-subtitle {
+        margin: 0;
+        color: var(--nv-muted);
+        font-size: 0.95rem;
+    }
+    .dse-tabs {
+        margin: 0;
+    }
+    .dse-tab-list {
+        display: flex;
+        flex-wrap: wrap;
+        gap: 0.7rem;
+        margin-bottom: 1.15rem;
+        padding: 0.35rem;
+        border-radius: 999px;
+        background: #f5f7f2;
+        border: 1px solid rgba(17, 17, 17, 0.06);
+        width: fit-content;
+        max-width: 100%;
+    }
+    .dse-tab-button {
+        display: inline-flex;
+        align-items: center;
+        gap: 0.45rem;
+        padding: 0.58rem 0.95rem;
+        border-radius: 999px;
+        border: 1px solid rgba(17, 17, 17, 0.08);
+        background: transparent;
+        color: var(--nv-ink);
+        font-weight: 650;
+        cursor: pointer;
+    }
+    .dse-tab-button:hover {
+        background: rgba(255, 255, 255, 0.75);
+    }
+    .dse-tab-button.is-active {
+        border-color: rgba(118, 185, 0, 0.28);
+        background: #ffffff;
+        color: var(--nv-green-strong);
+        box-shadow: 0 1px 2px rgba(17, 17, 17, 0.06);
+    }
+    .dse-tab-panel {
+        display: none;
+    }
+    .dse-tab-panel.is-active {
+        display: block;
     }
     .dse-box {
         border: 1px solid var(--nv-border);
@@ -213,6 +274,18 @@
             });
         });
 
+        document.querySelectorAll(".js-dse-tabs").forEach((root) => {
+            const buttons = root.querySelectorAll(".js-dse-tab-button");
+            const panels = root.querySelectorAll(".js-dse-tab-panel");
+            buttons.forEach((button) => {
+                button.addEventListener("click", function () {
+                    const target = button.dataset.tabTarget;
+                    buttons.forEach((candidate) => candidate.classList.toggle("is-active", candidate === button));
+                    panels.forEach((panel) => panel.classList.toggle("is-active", panel.dataset.tabPanel === target));
+                });
+            });
+        });
+
         if (typeof Chart === "undefined") {
             return;
         }
@@ -243,7 +316,7 @@
                     labels: chartData.labels,
                     datasets: [
                         {
-                            label: "Observed reward",
+                            label: "Reward",
                             data: chartData.rewards,
                             borderColor: "#39424e",
                             backgroundColor: "rgba(57, 66, 78, 0.14)",
@@ -306,109 +379,136 @@
 
 {% block content %}
 {% if dse_cases %}
-    {% for summary in dse_cases %}
-    <section class="dse-summary">
-        <div class="dse-box">
-            <div class="dse-header">
-                <h2>{{ summary.name }}</h2>
+    <section class="dse-cases-shell">
+        <div class="dse-cases-header">
+            <h2>DSE Cases</h2>
+            <p class="dse-cases-subtitle">Switch between DSE test case reports in this scenario.</p>
+        </div>
+        <div class="dse-tabs js-dse-tabs">
+            <div class="dse-tab-list" role="tablist" aria-label="DSE reports">
+                {% for summary in dse_cases %}
+                <button
+                    type="button"
+                    class="dse-tab-button js-dse-tab-button {% if loop.first %}is-active{% endif %}"
+                    data-tab-target="dse-case-{{ loop.index0 }}"
+                    role="tab"
+                    aria-selected="{{ 'true' if loop.first else 'false' }}"
+                >
+                    {{ summary.name }}
+                </button>
+                {% endfor %}
             </div>
 
-            <div class="dse-kpi-grid">
-                <div class="metric-card metric-card--hero">
-                    <div class="metric-label">Saved Time</div>
-                    <div class="metric-value">{{ summary.saved_time }}</div>
-                </div>
-                <div class="metric-card metric-card--hero">
-                    <div class="metric-label">Saved GPU-Hours</div>
-                    <div class="metric-value">{{ summary.saved_gpu_hours }}</div>
-                </div>
-                <div class="metric-card metric-card--accent">
-                    <div class="metric-label">Estimated Savings</div>
-                    <div class="metric-value">{{ summary.estimated_savings }}</div>
-                </div>
-                <div class="metric-card">
-                    <div class="metric-label">GPU Label</div>
-                    <div class="metric-value">{{ summary.gpu_label }}</div>
-                </div>
-            </div>
+            {% for summary in dse_cases %}
+            <div
+                class="dse-tab-panel js-dse-tab-panel {% if loop.first %}is-active{% endif %}"
+                data-tab-panel="dse-case-{{ loop.index0 }}"
+            >
+                <section class="dse-summary">
+                    <div class="dse-box">
+                        <div class="dse-header">
+                            <h2>{{ summary.name }}</h2>
+                        </div>
 
-            <div class="dse-runtime-grid">
-                <div class="metric-card">
-                    <div class="metric-label">Avg Step Runtime</div>
-                    <div class="metric-value">{{ summary.avg_step_runtime }}</div>
-                </div>
-                <div class="metric-card">
-                    <div class="metric-label">Observed Runtime</div>
-                    <div class="metric-value">{{ summary.observed_runtime }}</div>
-                </div>
-                <div class="metric-card">
-                    <div class="metric-label">Exploration Efficiency</div>
-                    <div class="metric-value">{{ summary.efficiency_ratio }}</div>
-                </div>
-                <div class="metric-card">
-                    <div class="metric-label">Explored Steps</div>
-                    <div class="metric-value">{{ summary.efficiency_steps }}</div>
-                </div>
-            </div>
+                        <div class="dse-kpi-grid">
+                            <div class="metric-card metric-card--hero">
+                                <div class="metric-label">Saved Time</div>
+                                <div class="metric-value">{{ summary.saved_time }}</div>
+                            </div>
+                            <div class="metric-card metric-card--hero">
+                                <div class="metric-label">Saved GPU-Hours</div>
+                                <div class="metric-value">{{ summary.saved_gpu_hours }}</div>
+                            </div>
+                            <div class="metric-card metric-card--accent">
+                                <div class="metric-label">Estimated Savings</div>
+                                <div class="metric-value">{{ summary.estimated_savings }}</div>
+                            </div>
+                            <div class="metric-card">
+                                <div class="metric-label">GPU Label</div>
+                                <div class="metric-value">{{ summary.gpu_label }}</div>
+                            </div>
+                        </div>
 
-            {% if summary.best_config_toml %}
-            <details class="best-config-preview">
-                <summary>
-                    <span>Best Config TOML</span>
-                    <span class="best-config-summary-actions">
-                        <button type="button" class="action-button js-copy-config" data-copy-target="best-config-text-{{ loop.index0 }}">Copy TOML</button>
-                    </span>
-                </summary>
-                <pre id="best-config-text-{{ loop.index0 }}">{{ summary.best_config_toml }}</pre>
-            </details>
-            {% endif %}
-        </div>
+                        <div class="dse-runtime-grid">
+                            <div class="metric-card">
+                                <div class="metric-label">Avg Step Runtime</div>
+                                <div class="metric-value">{{ summary.avg_step_runtime }}</div>
+                            </div>
+                            <div class="metric-card">
+                                <div class="metric-label">Observed Runtime</div>
+                                <div class="metric-value">{{ summary.observed_runtime }}</div>
+                            </div>
+                            <div class="metric-card">
+                                <div class="metric-label">Exploration Efficiency</div>
+                                <div class="metric-value">{{ summary.efficiency_ratio }}</div>
+                            </div>
+                            <div class="metric-card">
+                                <div class="metric-label">Explored Steps</div>
+                                <div class="metric-value">{{ summary.efficiency_steps }}</div>
+                            </div>
+                        </div>
 
-        <div class="dse-box">
-            <h3>DSE: Exploration Space</h3>
-            <table class="space-table">
-                <thead>
-                    <tr>
-                        <th>Parameter</th>
-                        <th>Allowed Values</th>
-                    </tr>
-                </thead>
-                <tbody>
-                    {% for row in summary.parameter_rows %}
-                    <tr>
-                        <td>{{ row.name }}</td>
-                        <td>
-                            <div class="value-cloud">
-                                {% for value in row.values %}
-                                <span class="value-pill {% if value.is_best %}value-pill--selected{% endif %}">{{ value.text }}</span>
+                        {% if summary.best_config_toml %}
+                        <details class="best-config-preview">
+                            <summary>
+                                <span>Best Config TOML</span>
+                                <span class="best-config-summary-actions">
+                                    <button type="button" class="action-button js-copy-config" data-copy-target="best-config-text-{{ loop.index0 }}">Copy TOML</button>
+                                </span>
+                            </summary>
+                            <pre id="best-config-text-{{ loop.index0 }}">{{ summary.best_config_toml }}</pre>
+                        </details>
+                        {% endif %}
+                    </div>
+
+                    <div class="dse-box">
+                        <h3>DSE: Exploration Space</h3>
+                        <table class="space-table">
+                            <thead>
+                                <tr>
+                                    <th>Parameter</th>
+                                    <th>Allowed Values</th>
+                                </tr>
+                            </thead>
+                            <tbody>
+                                {% for row in summary.parameter_rows %}
+                                <tr>
+                                    <td>{{ row.name }}</td>
+                                    <td>
+                                        <div class="value-cloud">
+                                            {% for value in row.values %}
+                                            <span class="value-pill {% if value.is_best %}value-pill--selected{% endif %}">{{ value.text }}</span>
+                                            {% endfor %}
+                                        </div>
+                                    </td>
+                                </tr>
                                 {% endfor %}
-                            </div>
-                        </td>
-                    </tr>
-                    {% endfor %}
-                </tbody>
-            </table>
-        </div>
+                            </tbody>
+                        </table>
+                    </div>
 
-        <div class="dse-box">
-            <h3>DSE: Reward Over Steps</h3>
-            {% if summary.reward_chart_data %}
-                <div class="chart-shell">
-                    <canvas
-                        class="js-reward-chart"
-                        data-chart-data-id="reward-chart-data-{{ loop.index0 }}"
-                        aria-label="Line chart of reward over DSE steps"
-                    ></canvas>
-                </div>
-                <script type="application/json" id="reward-chart-data-{{ loop.index0 }}">{{ summary.reward_chart_data | tojson }}</script>
-                <p class="chart-fallback">Interactive chart unavailable. Numeric report details remain available above.</p>
-                <noscript><p class="chart-fallback">JavaScript is disabled. Numeric report details remain available without charts.</p></noscript>
-            {% else %}
-                <p>No reward data available.</p>
-            {% endif %}
+                    <div class="dse-box">
+                        <h3>DSE: Reward Over Steps</h3>
+                        {% if summary.reward_chart_data %}
+                            <div class="chart-shell">
+                                <canvas
+                                    class="js-reward-chart"
+                                    data-chart-data-id="reward-chart-data-{{ loop.index0 }}"
+                                    aria-label="Line chart of reward over DSE steps"
+                                ></canvas>
+                            </div>
+                            <script type="application/json" id="reward-chart-data-{{ loop.index0 }}">{{ summary.reward_chart_data | tojson }}</script>
+                            <p class="chart-fallback">Interactive chart unavailable. Numeric report details remain available above.</p>
+                            <noscript><p class="chart-fallback">JavaScript is disabled. Numeric report details remain available without charts.</p></noscript>
+                        {% else %}
+                            <p>No reward data available.</p>
+                        {% endif %}
+                    </div>
+                </section>
+            </div>
+            {% endfor %}
         </div>
     </section>
-    {% endfor %}
 {% else %}
     <p>No DSE results found.</p>
 {% endif %}

From 87d1e7330acbab402f9027e1d9767c2ae63b8f81 Mon Sep 17 00:00:00 2001
From: Ivan Podkidyshev <ipodkidyshev@nvidia.com>
Date: Tue, 24 Mar 2026 22:18:52 +0100
Subject: [PATCH 18/30] minor style change

---
 src/cloudai/reporter.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/src/cloudai/reporter.py b/src/cloudai/reporter.py
index 98a8713d1..f2dbf93c3 100644
--- a/src/cloudai/reporter.py
+++ b/src/cloudai/reporter.py
@@ -176,7 +176,7 @@ def generate(self) -> None:
         jinja_env = jinja2.Environment(loader=jinja2.FileSystemLoader(self.templates_dir))
         template = jinja_env.get_template("dse-report.jinja2")
 
-        report = template.render(scenario_name=self.test_scenario.name, dse_cases=dse_cases)
+        report = template.render(name=self.test_scenario.name, dse_cases=dse_cases)
         report_path = self.results_root / f"{self.test_scenario.name}-dse-report.html"
         with report_path.open("w") as f:
             f.write(report)

From b0e6d6605718ba6c5b298e1d3fff2c45cf37080c Mon Sep 17 00:00:00 2001
From: Ivan Podkidyshev <ipodkidyshev@nvidia.com>
Date: Tue, 24 Mar 2026 22:34:03 +0100
Subject: [PATCH 19/30] html looks good

---
 src/cloudai/util/dse-report.jinja2 | 270 +++++++++++++++++++++++------
 1 file changed, 217 insertions(+), 53 deletions(-)

diff --git a/src/cloudai/util/dse-report.jinja2 b/src/cloudai/util/dse-report.jinja2
index f0157d08f..0682639cd 100644
--- a/src/cloudai/util/dse-report.jinja2
+++ b/src/cloudai/util/dse-report.jinja2
@@ -69,11 +69,69 @@
     .dse-tab-panel.is-active {
         display: block;
     }
+    .overview-board,
     .dse-box {
         border: 1px solid var(--nv-border);
         border-radius: var(--radius-lg);
         background: rgba(255, 255, 255, 0.98);
         box-shadow: var(--nv-shadow);
+    }
+    .overview-board {
+        position: relative;
+        margin-bottom: 1.5rem;
+        padding: 1.6rem;
+        overflow: hidden;
+    }
+    .overview-board::before {
+        content: "";
+        position: absolute;
+        top: 0;
+        left: 0;
+        right: 0;
+        height: 6px;
+        border-radius: var(--radius-lg) var(--radius-lg) 0 0;
+        background: linear-gradient(90deg, var(--nv-green), var(--nv-green-bright));
+        pointer-events: none;
+    }
+    .overview-topline {
+        display: flex;
+        flex-wrap: wrap;
+        align-items: center;
+        gap: 0.8rem 1rem;
+        margin-bottom: 0.85rem;
+    }
+    .overview-board h2 {
+        margin: 0;
+        color: var(--nv-ink);
+    }
+    .overview-layout {
+        display: grid;
+        grid-template-columns: minmax(0, 1.65fr) minmax(280px, 0.95fr);
+        gap: 1rem;
+        align-items: start;
+    }
+    .overview-left {
+        display: flex;
+        flex-direction: column;
+        gap: 1rem;
+    }
+    .summary-stat-grid {
+        display: flex;
+        flex-direction: column;
+        gap: 0.9rem;
+    }
+    .impact-stat-grid,
+    .context-strip {
+        display: grid;
+        gap: 0.8rem;
+    }
+    .impact-stat-grid {
+        grid-template-columns: repeat(3, minmax(0, 1fr));
+    }
+    .context-strip {
+        grid-template-columns: repeat(3, minmax(0, 1fr));
+    }
+    .dse-box {
         margin-bottom: 1.4rem;
         padding: 1.35rem;
     }
@@ -134,6 +192,76 @@
         font-size: 1.8rem;
         color: var(--nv-green-strong);
     }
+    .context-item {
+        padding: 0.85rem 0.95rem;
+        border-radius: var(--radius-md);
+        border: 1px solid rgba(17, 17, 17, 0.07);
+        background: #ffffff;
+    }
+    .context-item--runtime {
+        background: #fbfcfa;
+    }
+    .label {
+        color: var(--nv-muted);
+        display: block;
+        font-size: 0.78rem;
+        text-transform: uppercase;
+        letter-spacing: 0.06em;
+    }
+    .value {
+        color: var(--nv-ink);
+        font-weight: 650;
+    }
+    .effort-block {
+        display: flex;
+        flex-direction: column;
+        align-self: start;
+        padding: 1rem 1.05rem;
+        border-radius: var(--radius-md);
+        border: 1px solid rgba(17, 17, 17, 0.07);
+        background: linear-gradient(180deg, #fcfdfb, #ffffff);
+    }
+    .effort-head {
+        display: flex;
+        flex-wrap: wrap;
+        align-items: baseline;
+        justify-content: space-between;
+        gap: 0.5rem 1rem;
+        margin-bottom: 0.65rem;
+    }
+    .effort-head h3 {
+        margin: 0;
+    }
+    .efficiency-panel {
+        display: flex;
+        flex-direction: column;
+        gap: 0.8rem;
+        width: 100%;
+    }
+    .efficiency-steps {
+        color: var(--nv-muted);
+        font-size: 0.95rem;
+        font-weight: 650;
+    }
+    .efficiency-callout {
+        display: flex;
+        align-items: baseline;
+        gap: 0.55rem;
+        flex-wrap: wrap;
+        padding: 0;
+    }
+    .efficiency-ratio {
+        color: var(--nv-green-strong);
+        font-size: 2rem;
+        font-weight: 800;
+        letter-spacing: -0.04em;
+    }
+    .efficiency-ratio-note {
+        color: var(--nv-ink);
+        font-size: 1rem;
+        font-weight: 650;
+        line-height: 1.2;
+    }
     .best-config-preview {
         border-radius: var(--radius-sm);
         overflow: hidden;
@@ -152,10 +280,27 @@
         color: var(--nv-ink);
         font-weight: 650;
         background: #fbfcfa;
+        transition: background-color 0.15s ease, border-color 0.15s ease;
     }
     .best-config-preview summary::-webkit-details-marker {
         display: none;
     }
+    .best-config-preview summary::before {
+        content: "";
+        width: 0;
+        height: 0;
+        border-top: 5px solid transparent;
+        border-bottom: 5px solid transparent;
+        border-left: 7px solid var(--nv-green-strong);
+        margin-right: 0.55rem;
+        transition: transform 0.15s ease;
+    }
+    .best-config-preview summary:hover {
+        background: var(--nv-green-soft);
+    }
+    .best-config-preview[open] summary::before {
+        transform: rotate(90deg);
+    }
     .best-config-summary-actions {
         display: inline-flex;
         align-items: center;
@@ -230,6 +375,13 @@
         display: none;
     }
     @media (max-width: 640px) {
+        .overview-board,
+        .dse-box {
+            padding: 1.1rem;
+        }
+        .overview-layout,
+        .impact-stat-grid,
+        .context-strip,
         .dse-kpi-grid,
         .dse-runtime-grid {
             grid-template-columns: 1fr;
@@ -240,6 +392,9 @@
         .metric-card--accent .metric-value {
             font-size: 1.5rem;
         }
+        .efficiency-ratio {
+            font-size: 1.45rem;
+        }
         .best-config-preview summary {
             align-items: flex-start;
             flex-direction: column;
@@ -319,14 +474,14 @@
                             label: "Reward",
                             data: chartData.rewards,
                             borderColor: "#39424e",
-                            backgroundColor: "rgba(57, 66, 78, 0.14)",
+                            backgroundColor: "transparent",
                             pointBackgroundColor: pointBackgroundColors,
                             pointBorderColor: pointBorderColors,
                             pointRadius: pointRadii,
                             pointHoverRadius: 6,
                             borderWidth: 2,
                             tension: 0.25,
-                            fill: true
+                            fill: false
                         }
                     ]
                 },
@@ -405,69 +560,67 @@
                 data-tab-panel="dse-case-{{ loop.index0 }}"
             >
                 <section class="dse-summary">
-                    <div class="dse-box">
-                        <div class="dse-header">
-                            <h2>{{ summary.name }}</h2>
+                    <div class="overview-board">
+                        <div class="overview-topline">
+                            <h2>Overview</h2>
                         </div>
 
-                        <div class="dse-kpi-grid">
-                            <div class="metric-card metric-card--hero">
-                                <div class="metric-label">Saved Time</div>
-                                <div class="metric-value">{{ summary.saved_time }}</div>
-                            </div>
-                            <div class="metric-card metric-card--hero">
-                                <div class="metric-label">Saved GPU-Hours</div>
-                                <div class="metric-value">{{ summary.saved_gpu_hours }}</div>
-                            </div>
-                            <div class="metric-card metric-card--accent">
-                                <div class="metric-label">Estimated Savings</div>
-                                <div class="metric-value">{{ summary.estimated_savings }}</div>
-                            </div>
-                            <div class="metric-card">
-                                <div class="metric-label">GPU Label</div>
-                                <div class="metric-value">{{ summary.gpu_label }}</div>
-                            </div>
-                        </div>
-
-                        <div class="dse-runtime-grid">
-                            <div class="metric-card">
-                                <div class="metric-label">Avg Step Runtime</div>
-                                <div class="metric-value">{{ summary.avg_step_runtime }}</div>
-                            </div>
-                            <div class="metric-card">
-                                <div class="metric-label">Observed Runtime</div>
-                                <div class="metric-value">{{ summary.observed_runtime }}</div>
-                            </div>
-                            <div class="metric-card">
-                                <div class="metric-label">Exploration Efficiency</div>
-                                <div class="metric-value">{{ summary.efficiency_ratio }}</div>
+                        <div class="overview-layout">
+                            <div class="overview-left">
+                                <div class="summary-stat-grid">
+                                    <div class="impact-stat-grid">
+                                        <div class="metric-card metric-card--hero">
+                                            <div class="metric-label">Saved Time</div>
+                                            <div class="metric-value">{{ summary.saved_time }}</div>
+                                        </div>
+                                        <div class="metric-card metric-card--hero">
+                                            <div class="metric-label">Saved GPU-Hours</div>
+                                            <div class="metric-value">{{ summary.saved_gpu_hours }}</div>
+                                        </div>
+                                        <div class="metric-card metric-card--accent">
+                                            <div class="metric-label">Estimated Savings</div>
+                                            <div class="metric-value">{{ summary.estimated_savings }}</div>
+                                        </div>
+                                    </div>
+                                    <div class="context-strip">
+                                        <div class="context-item">
+                                            <span class="label">GPU Label</span>
+                                            <span class="value">{{ summary.gpu_label }}</span>
+                                        </div>
+                                        <div class="context-item context-item--runtime">
+                                            <span class="label">Avg Step Runtime</span>
+                                            <span class="value">{{ summary.avg_step_runtime }}</span>
+                                        </div>
+                                        <div class="context-item context-item--runtime">
+                                            <span class="label">Observed Runtime</span>
+                                            <span class="value">{{ summary.observed_runtime }}</span>
+                                        </div>
+                                    </div>
+                                </div>
                             </div>
-                            <div class="metric-card">
-                                <div class="metric-label">Explored Steps</div>
-                                <div class="metric-value">{{ summary.efficiency_steps }}</div>
+                            <div class="effort-block">
+                                <div class="effort-head">
+                                    <h3>Exploration Efficiency</h3>
+                                </div>
+                                <div class="efficiency-panel" aria-label="Efficiency summary for explored steps versus total search space">
+                                    <div class="efficiency-callout">
+                                        <div class="efficiency-ratio">{{ summary.efficiency_ratio }}</div>
+                                        <div class="efficiency-ratio-note">reduction in search space</div>
+                                    </div>
+                                    <div class="efficiency-steps">{{ summary.efficiency_steps }}</div>
+                                </div>
                             </div>
                         </div>
 
-                        {% if summary.best_config_toml %}
-                        <details class="best-config-preview">
-                            <summary>
-                                <span>Best Config TOML</span>
-                                <span class="best-config-summary-actions">
-                                    <button type="button" class="action-button js-copy-config" data-copy-target="best-config-text-{{ loop.index0 }}">Copy TOML</button>
-                                </span>
-                            </summary>
-                            <pre id="best-config-text-{{ loop.index0 }}">{{ summary.best_config_toml }}</pre>
-                        </details>
-                        {% endif %}
                     </div>
 
                     <div class="dse-box">
-                        <h3>DSE: Exploration Space</h3>
+                        <h3>Exploration Space</h3>
                         <table class="space-table">
                             <thead>
                                 <tr>
                                     <th>Parameter</th>
-                                    <th>Allowed Values</th>
+                                    <th>Values</th>
                                 </tr>
                             </thead>
                             <tbody>
@@ -485,10 +638,21 @@
                                 {% endfor %}
                             </tbody>
                         </table>
+                        {% if summary.best_config_toml %}
+                        <details class="best-config-preview">
+                            <summary>
+                                <span>Best Config TOML</span>
+                                <span class="best-config-summary-actions">
+                                    <button type="button" class="action-button js-copy-config" data-copy-target="best-config-text-{{ loop.index0 }}">Copy TOML</button>
+                                </span>
+                            </summary>
+                            <pre id="best-config-text-{{ loop.index0 }}">{{ summary.best_config_toml }}</pre>
+                        </details>
+                        {% endif %}
                     </div>
 
                     <div class="dse-box">
-                        <h3>DSE: Reward Over Steps</h3>
+                        <h3>Reward Over Steps</h3>
                         {% if summary.reward_chart_data %}
                             <div class="chart-shell">
                                 <canvas

From d8c2caa9ad1ab0a7f8ea8ebe82e4e7be55405eeb Mon Sep 17 00:00:00 2001
From: Ivan Podkidyshev <ipodkidyshev@nvidia.com>
Date: Tue, 24 Mar 2026 22:35:21 +0100
Subject: [PATCH 20/30] reporting best dse config is now part of dse reporter

---
 src/cloudai/reporter.py | 46 ++++++++++++++++++++---------------------
 1 file changed, 23 insertions(+), 23 deletions(-)

diff --git a/src/cloudai/reporter.py b/src/cloudai/reporter.py
index f2dbf93c3..3a7a61891 100644
--- a/src/cloudai/reporter.py
+++ b/src/cloudai/reporter.py
@@ -94,7 +94,6 @@ def template_file(self) -> str:
     def generate(self) -> None:
         self.load_test_runs()
         self.generate_scenario_report()
-        self.report_best_dse_config()
         self.print_summary()
 
     def generate_scenario_report(self) -> None:
@@ -110,28 +109,6 @@ def generate_scenario_report(self) -> None:
 
         logging.info(f"Generated scenario report at {report_path}")
 
-    def report_best_dse_config(self):
-        for tr in self.test_scenario.test_runs:
-            if not tr.test.is_dse_job:
-                continue
-
-            tr_root = self.results_root / tr.name / f"{tr.current_iteration}"
-            trajectory_file = tr_root / "trajectory.csv"
-            if not trajectory_file.exists():
-                logging.warning(f"No trajectory file found for {tr.name} at {trajectory_file}")
-                continue
-
-            df = lazy.pd.read_csv(trajectory_file)
-            best_step = df.loc[df["reward"].idxmax()]["step"]
-            best_step_details = tr_root / f"{best_step}" / CommandGenStrategy.TEST_RUN_DUMP_FILE_NAME
-            with best_step_details.open() as f:
-                trd = TestRunDetails.model_validate(toml.load(f))
-
-            best_config_path = tr_root / f"{tr.name}.toml"
-            logging.info(f"Writing best config for {tr.name} to {best_config_path}")
-            with best_config_path.open("w") as f:
-                toml.dump(trd.test_definition.model_dump(), f)
-
     def print_summary(self) -> None:
         if not self.trs:
             logging.debug("No test runs found, skipping summary.")
@@ -165,6 +142,7 @@ def templates_dir(self) -> Path:
 
     def generate(self) -> None:
         self.load_test_runs()
+        self.report_best_dse_config()
 
         dse_cases = build_dse_summaries(
             system=self.system,
@@ -183,6 +161,28 @@ def generate(self) -> None:
 
         logging.info(f"Generated scenario report at {report_path}")
 
+    def report_best_dse_config(self):
+        for tr in self.test_scenario.test_runs:
+            if not tr.test.is_dse_job:
+                continue
+
+            tr_root = self.results_root / tr.name / f"{tr.current_iteration}"
+            trajectory_file = tr_root / "trajectory.csv"
+            if not trajectory_file.is_file():
+                logging.warning(f"No trajectory file found for {tr.name} at {trajectory_file}")
+                continue
+
+            df = lazy.pd.read_csv(trajectory_file)
+            best_step = df.loc[df["reward"].idxmax()]["step"]
+            best_step_details = tr_root / f"{best_step}" / CommandGenStrategy.TEST_RUN_DUMP_FILE_NAME
+            with best_step_details.open() as f:
+                trd = TestRunDetails.model_validate(toml.load(f))
+
+            best_config_path = tr_root / f"{tr.name}.toml"
+            logging.info(f"Writing best config for {tr.name} to {best_config_path}")
+            with best_config_path.open("w") as f:
+                toml.dump(trd.test_definition.model_dump(), f)
+
 
 class TarballReporter(Reporter):
     """Creates tarballs of results for failed test runs."""

From a6694655e0dc57c3e1310a92e99a168a688fc814 Mon Sep 17 00:00:00 2001
From: Ivan Podkidyshev <ipodkidyshev@nvidia.com>
Date: Tue, 24 Mar 2026 22:58:11 +0100
Subject: [PATCH 21/30] code looks much cleaner

---
 src/cloudai/report_generator/dse_report.py | 135 +++++++++++++--------
 src/cloudai/util/dse-report.jinja2         |   2 +-
 2 files changed, 84 insertions(+), 53 deletions(-)

diff --git a/src/cloudai/report_generator/dse_report.py b/src/cloudai/report_generator/dse_report.py
index eb51d82b5..edfbf18a0 100644
--- a/src/cloudai/report_generator/dse_report.py
+++ b/src/cloudai/report_generator/dse_report.py
@@ -65,7 +65,7 @@ class DSECaseIterationSummary:
     name: str
     saved_time: str
     saved_gpu_hours: str
-    estimated_savings: str
+    saved_usd: str
     gpu_label: str
     avg_step_runtime: str
     observed_runtime: str
@@ -77,7 +77,7 @@ class DSECaseIterationSummary:
 
 
 @dataclass(frozen=True)
-class _StepComputation:
+class TrajectoryStep:
     step: int
     reward: float
     observation_text: str
@@ -151,7 +151,40 @@ def _step_elapsed_time(step_dir: Path) -> int | None:
     return metadata.elapsed_time_sec
 
 
-def _build_reward_chart_data(steps: list[_StepComputation]) -> dict[str, Any] | None:
+def calculate_saved_gpu_hours(
+    system: System,
+    total_runtime_sec: float | None,
+    projected_runtime_sec: float | None,
+    test_run_details: TestRunDetails,
+) -> float | None:
+    gpus_per_node = getattr(system, "gpus_per_node", None)
+    total_gpu_hours = (
+        (total_runtime_sec / 3600.0) * test_run_details.nnodes * gpus_per_node
+        if gpus_per_node is not None
+        else None
+    )
+    projected_gpu_hours = (
+        (projected_runtime_sec / 3600.0) * test_run_details.nnodes * gpus_per_node
+        if projected_runtime_sec is not None and gpus_per_node is not None
+        else None
+    )
+    return (
+        max(projected_gpu_hours - total_gpu_hours, 0.0)
+        if projected_gpu_hours is not None and total_gpu_hours is not None
+        else None
+    )
+
+
+def calculate_savings(saved_gpu_hours: float | None, gpu_arch_label: str | None) -> float | None:
+    gpu_arch_family = _normalize_gpu_family(gpu_arch_label)
+    return (
+        saved_gpu_hours * GPU_HOURLY_COST_USD[gpu_arch_family]
+        if saved_gpu_hours is not None and gpu_arch_family in GPU_HOURLY_COST_USD
+        else None
+    )
+
+
+def _build_reward_chart_data(steps: list[TrajectoryStep]) -> dict[str, Any] | None:
     if not steps:
         return None
 
@@ -171,20 +204,23 @@ def _build_parameter_rows(param_space: dict[str, list[Any]], best_action: dict[s
         rows.append(
             DSEParameterRow(
                 name=name,
-                values=[DSEParameterValue(text=_format_scalar(value), is_best=_format_scalar(value) == best_value) for value in values],
+                values=[
+                    DSEParameterValue(
+                        text=_format_scalar(value),
+                        is_best=_format_scalar(value) == best_value,
+                    )
+                    for value in values
+                ],
             )
         )
     return rows
 
 
-def _build_iteration_summary(
-    system: System,
-    results_root: Path,
-    test_case: TestRun,
-    iteration: int,
+def _build_trajectory_steps(
     iteration_dir: Path,
+    test_case: TestRun,
     test_runs: list[TestRun],
-) -> DSECaseIterationSummary | None:
+) -> list[TrajectoryStep] | None:
     trajectory_file = iteration_dir / "trajectory.csv"
     if not trajectory_file.is_file():
         logging.warning(f"No trajectory file found for {test_case.name} at {trajectory_file}")
@@ -196,7 +232,7 @@ def _build_iteration_summary(
         return None
 
     runs_by_step = {test_run.step: test_run for test_run in test_runs}
-    steps: list[_StepComputation] = []
+    steps: list[TrajectoryStep] = []
     for row in df.to_dict(orient="records"):
         step_no = int(row["step"])
         action = _safe_literal_eval(row.get("action"), {})
@@ -207,7 +243,7 @@ def _build_iteration_summary(
             observation = [observation]
         step_run = runs_by_step.get(step_no)
         steps.append(
-            _StepComputation(
+            TrajectoryStep(
                 step=step_no,
                 reward=float(row["reward"]),
                 observation_text=", ".join(_format_scalar(value) for value in observation) if observation else "n/a",
@@ -221,7 +257,22 @@ def _build_iteration_summary(
         return None
 
     steps.sort(key=lambda step: step.step)
-    best_step = max(steps, key=lambda step: step.reward)
+    return steps
+
+
+def _build_iteration_summary(
+    system: System,
+    results_root: Path,
+    test_case: TestRun,
+    iteration: int,
+    iteration_dir: Path,
+    test_runs: list[TestRun],
+) -> DSECaseIterationSummary | None:
+    trajectory_steps = _build_trajectory_steps(iteration_dir, test_case, test_runs)
+    if not trajectory_steps:
+        return None
+
+    best_step = max(trajectory_steps, key=lambda step: step.reward)
     best_step_dump = iteration_dir / str(best_step.step) / CommandGenStrategy.TEST_RUN_DUMP_FILE_NAME
     if not best_step_dump.exists():
         logging.warning(f"No test run dump found for best DSE step at {best_step_dump}")
@@ -230,60 +281,40 @@ def _build_iteration_summary(
     with best_step_dump.open() as f:
         test_run_details = TestRunDetails.model_validate(toml.load(f))
 
-    best_config_toml = toml.dumps(test_run_details.test_definition.model_dump())
+    elapsed_times = [step.elapsed_time_sec for step in trajectory_steps if step.elapsed_time_sec is not None]
+    if not elapsed_times:
+        return None
 
-    elapsed_times = [step.elapsed_time_sec for step in steps if step.elapsed_time_sec is not None]
-    avg_step_duration_sec = sum(elapsed_times) / len(elapsed_times) if elapsed_times else None
-    total_runtime_sec = sum(elapsed_times) if elapsed_times else None
+    total_observed_runtime_sec = sum(elapsed_times)
+    avg_step_duration_sec = total_observed_runtime_sec / len(elapsed_times)
     total_space = len(test_case.all_combinations)
-    executed_steps = len(steps)
-    projected_runtime_sec = avg_step_duration_sec * total_space if avg_step_duration_sec is not None else None
-    saved_runtime_sec = (
-        max(projected_runtime_sec - total_runtime_sec, 0.0)
-        if projected_runtime_sec is not None and total_runtime_sec is not None
-        else None
-    )
+    projected_runtime_sec = avg_step_duration_sec * total_space
+    saved_runtime_sec = max(projected_runtime_sec - total_observed_runtime_sec, 0.0)
 
     metadata = load_system_metadata(iteration_dir / str(best_step.step), results_root)
     gpu_arch_label = metadata.system.gpu_arch_type if metadata else None
-    gpu_arch_family = _normalize_gpu_family(gpu_arch_label)
-    gpus_per_node = getattr(system, "gpus_per_node", None)
-    total_gpu_hours = (
-        (total_runtime_sec / 3600.0) * test_run_details.nnodes * gpus_per_node
-        if total_runtime_sec is not None and gpus_per_node is not None
-        else None
-    )
-    projected_gpu_hours = (
-        (projected_runtime_sec / 3600.0) * test_run_details.nnodes * gpus_per_node
-        if projected_runtime_sec is not None and gpus_per_node is not None
-        else None
-    )
-    saved_gpu_hours = (
-        max(projected_gpu_hours - total_gpu_hours, 0.0)
-        if projected_gpu_hours is not None and total_gpu_hours is not None
-        else None
-    )
-    estimated_saved_cost_usd = (
-        saved_gpu_hours * GPU_HOURLY_COST_USD[gpu_arch_family]
-        if saved_gpu_hours is not None and gpu_arch_family in GPU_HOURLY_COST_USD
-        else None
+    saved_gpu_hours = calculate_saved_gpu_hours(
+        system=system,
+        total_runtime_sec=total_observed_runtime_sec,
+        projected_runtime_sec=projected_runtime_sec,
+        test_run_details=test_run_details,
     )
-
-    reduction_factor = total_space / max(executed_steps, 1)
+    estimated_saved_cost_usd = calculate_savings(saved_gpu_hours, gpu_arch_label)
+    reduction_factor = total_space / len(trajectory_steps)
 
     return DSECaseIterationSummary(
         name=f"{test_case.name}-{iteration}",
         saved_time=format_duration(saved_runtime_sec),
         saved_gpu_hours=format_float(saved_gpu_hours, 2),
-        estimated_savings=format_money(estimated_saved_cost_usd),
+        saved_usd=format_money(estimated_saved_cost_usd),
         gpu_label=gpu_arch_label or "unknown",
         avg_step_runtime=format_duration(avg_step_duration_sec),
-        observed_runtime=format_duration(total_runtime_sec),
+        observed_runtime=format_duration(total_observed_runtime_sec),
         efficiency_ratio=f"~{format_float(reduction_factor, 1)}x",
-        efficiency_steps=f"{executed_steps:,} / {total_space:,} steps",
-        best_config_toml=best_config_toml,
+        efficiency_steps=f"{len(trajectory_steps):,} / {total_space:,} steps",
+        best_config_toml=toml.dumps(test_run_details.test_definition.model_dump()),
         parameter_rows=_build_parameter_rows(test_case.param_space, best_step.action),
-        reward_chart_data=_build_reward_chart_data(steps),
+        reward_chart_data=_build_reward_chart_data(trajectory_steps),
     )
 
 
diff --git a/src/cloudai/util/dse-report.jinja2 b/src/cloudai/util/dse-report.jinja2
index 0682639cd..cd0fd57a8 100644
--- a/src/cloudai/util/dse-report.jinja2
+++ b/src/cloudai/util/dse-report.jinja2
@@ -579,7 +579,7 @@
                                         </div>
                                         <div class="metric-card metric-card--accent">
                                             <div class="metric-label">Estimated Savings</div>
-                                            <div class="metric-value">{{ summary.estimated_savings }}</div>
+                                            <div class="metric-value">{{ summary.saved_usd }}</div>
                                         </div>
                                     </div>
                                     <div class="context-strip">

From 811bc564706275f003cd9845e82c47db887bb99b Mon Sep 17 00:00:00 2001
From: Ivan Podkidyshev <ipodkidyshev@nvidia.com>
Date: Tue, 24 Mar 2026 23:02:56 +0100
Subject: [PATCH 22/30] reverted test_reporter

---
 tests/test_reporter.py | 313 ++---------------------------------------
 1 file changed, 14 insertions(+), 299 deletions(-)

diff --git a/tests/test_reporter.py b/tests/test_reporter.py
index bb1d3ff3b..547c588c7 100644
--- a/tests/test_reporter.py
+++ b/tests/test_reporter.py
@@ -15,7 +15,6 @@
 # limitations under the License.
 
 import copy
-import csv
 import tarfile
 from pathlib import Path
 
@@ -24,10 +23,9 @@
 
 from cloudai import TestRun, TestScenario
 from cloudai.cli.handlers import generate_reports
-from cloudai.core import CommandGenStrategy, Registry, Reporter, System
-from cloudai.models.scenario import ReportConfig, TestRunDetails
-from cloudai.report_generator.status_report import DSEReportBuilder, ReportItem, _build_effort_chart_data, load_system_metadata
-from cloudai.reporter import PerTestReporter, StatusReporter, TarballReporter
+from cloudai.core import Registry, Reporter, System
+from cloudai.models.scenario import ReportConfig
+from cloudai.reporter import PerTestReporter, SlurmReportItem, StatusReporter, TarballReporter
 from cloudai.systems.slurm.slurm_metadata import (
     MetadataCUDA,
     MetadataMPI,
@@ -42,115 +40,6 @@
 from cloudai.workloads.nccl_test import NCCLCmdArgs, NCCLTestDefinition
 
 
-def _write_successful_nccl_stdout(step_dir: Path) -> None:
-    (step_dir / "stdout.txt").write_text("# Out of bounds values\n# Avg bus bandwidth\n")
-
-
-def _write_slurm_job_metadata(step_dir: Path, elapsed_time_sec: int) -> None:
-    slurm_job = {
-        "job_id": 123456,
-        "name": "test-job",
-        "state": "COMPLETED",
-        "start_time": "2026-03-21T15:00:00",
-        "end_time": "2026-03-21T15:05:00",
-        "elapsed_time_sec": elapsed_time_sec,
-        "exit_code": "0:0",
-        "srun_cmd": "srun echo test",
-        "test_cmd": "echo test",
-        "is_single_sbatch": False,
-        "job_root": str(step_dir),
-        "job_steps": [],
-    }
-    with (step_dir / "slurm-job.toml").open("w") as f:
-        toml.dump(slurm_job, f)
-
-
-def _write_step_metadata(step_dir: Path, metadata: SlurmSystemMetadata) -> None:
-    metadata_dir = step_dir / "metadata"
-    metadata_dir.mkdir(parents=True, exist_ok=True)
-    with (metadata_dir / "node-0.toml").open("w") as f:
-        toml.dump(metadata.model_dump(), f)
-
-
-def _create_dse_report_fixture(
-    slurm_system: SlurmSystem,
-    slurm_metadata: SlurmSystemMetadata,
-    gpu_name: str = "NVIDIA H100 80GB HBM3",
-    name: str = "dse-report",
-    description: str = "DSE summary sample",
-) -> TestRun:
-    test_definition = NCCLTestDefinition(
-        name="dse-nccl",
-        description=description,
-        test_template_name="NcclTest",
-        cmd_args=NCCLCmdArgs(
-            docker_image_url="fake://url/nccl",
-            subtest_name="all_reduce_perf_mpi",
-            nthreads=[1, 2],
-            datatype=["float", "uint8"],
-            blocking=[0, 1],
-        ),
-        agent_steps=3,
-    )
-    tr = TestRun(
-        name=name,
-        test=test_definition,
-        num_nodes=2,
-        nodes=["node1", "node2"],
-        time_limit="00:05:00",
-    )
-    iter_dir = slurm_system.output_path / tr.name / "0"
-    iter_dir.mkdir(parents=True, exist_ok=True)
-
-    rows = [
-        (1, {"nthreads": 1, "datatype": "float", "blocking": 0}, 1.5, [2.5], 10),
-        (2, {"nthreads": 2, "datatype": "uint8", "blocking": 1}, 3.0, [1.2], 20),
-        (3, {"nthreads": 2, "datatype": "float", "blocking": 1}, 2.0, [1.8], 30),
-    ]
-
-    with (iter_dir / "trajectory.csv").open("w", newline="") as f:
-        writer = csv.writer(f)
-        writer.writerow(["step", "action", "reward", "observation"])
-        for step, action, reward, observation, _elapsed in rows:
-            writer.writerow([step, action, reward, observation])
-
-    for step, action, _reward, _observation, elapsed in rows:
-        step_dir = iter_dir / str(step)
-        step_dir.mkdir(parents=True, exist_ok=True)
-        step_tr = tr.apply_params_set(action)
-        step_tr.step = step
-        step_tr.output_path = step_dir
-
-        with (step_dir / CommandGenStrategy.TEST_RUN_DUMP_FILE_NAME).open("w") as f:
-            toml.dump(TestRunDetails.from_test_run(step_tr, "", "").model_dump(), f)
-
-        _write_successful_nccl_stdout(step_dir)
-        _write_slurm_job_metadata(step_dir, elapsed)
-
-    metadata = slurm_metadata.model_copy(deep=True)
-    metadata.system.gpu_arch_type = gpu_name
-    _write_step_metadata(iter_dir / "2", metadata)
-    (iter_dir / "analysis.csv").write_text("parameter,sensitivity,importance\nblocking,0.5,0.8\n")
-
-    return tr
-
-
-def _build_dse_summaries(
-    slurm_system: SlurmSystem,
-    dse_tr: TestRun,
-    scenario_name: str = "dse_scenario",
-) -> tuple[StatusReporter, list]:
-    reporter = StatusReporter(
-        slurm_system,
-        TestScenario(name=scenario_name, test_runs=[dse_tr]),
-        slurm_system.output_path,
-        ReportConfig(),
-    )
-    reporter.load_test_runs()
-    summaries = DSEReportBuilder(slurm_system, slurm_system.output_path, reporter.trs).build([dse_tr])
-    return reporter, summaries
-
-
 class TestLoadTestTuns:
     def test_load_test_runs_behcnmark_sorted(self, slurm_system: SlurmSystem, benchmark_tr: TestRun) -> None:
         reporter = PerTestReporter(
@@ -204,13 +93,12 @@ def test_create_tarball_preserves_full_name(tmp_path: Path, slurm_system: SlurmS
 
 
 def test_best_dse_config(dse_tr: TestRun, slurm_system: SlurmSystem) -> None:
-    reporter, summaries = _build_dse_summaries(slurm_system, dse_tr, scenario_name="test_scenario")
-    assert len(summaries) == dse_tr.iterations
+    reporter = StatusReporter(
+        slurm_system, TestScenario(name="test_scenario", test_runs=[dse_tr]), slurm_system.output_path, ReportConfig()
+    )
+    reporter.report_best_dse_config()
     best_config_path = (
-        reporter.results_root
-        / dse_tr.name
-        / f"{dse_tr.current_iteration}"
-        / DSEReportBuilder.best_config_file_name(dse_tr)
+        reporter.results_root / dse_tr.name / f"{dse_tr.current_iteration}" / reporter.best_dse_config_file_name(dse_tr)
     )
     assert best_config_path.exists()
     nccl = NCCLTestDefinition.model_validate(toml.load(best_config_path))
@@ -229,7 +117,7 @@ def test_template_file_path(system: System) -> None:
     reporter = StatusReporter(
         system, TestScenario(name="test_scenario", test_runs=[]), system.output_path, ReportConfig()
     )
-    assert (reporter.templates_dir / "dse-report.jinja2").exists()
+    assert (reporter.template_file_path / reporter.template_file).exists()
 
 
 MY_REPORT_CALLED = 0
@@ -373,19 +261,19 @@ def slurm_metadata() -> SlurmSystemMetadata:
     )
 
 
-class TestLoadSystemMetadata:
+class TestSlurmReportItem:
     def test_no_metadata_folder(self, slurm_system: SlurmSystem) -> None:
         run_dir = slurm_system.output_path / "run_dir"
         run_dir.mkdir(parents=True, exist_ok=True)
 
-        meta = load_system_metadata(run_dir, slurm_system.output_path)
+        meta = SlurmReportItem.get_metadata(run_dir, slurm_system.output_path)
         assert meta is None
 
     def test_no_metadata_files(self, slurm_system: SlurmSystem) -> None:
         run_dir = slurm_system.output_path / "run_dir"
         (run_dir / "metadata").mkdir(parents=True, exist_ok=True)
 
-        meta = load_system_metadata(run_dir, slurm_system.output_path)
+        meta = SlurmReportItem.get_metadata(run_dir, slurm_system.output_path)
         assert meta is None
 
     def test_metadata_file_in_run_dir(self, slurm_system: SlurmSystem, slurm_metadata: SlurmSystemMetadata) -> None:
@@ -394,7 +282,7 @@ def test_metadata_file_in_run_dir(self, slurm_system: SlurmSystem, slurm_metadat
         with open(run_dir / "metadata" / "node-0.toml", "w") as f:
             toml.dump(slurm_metadata.model_dump(), f)
 
-        meta = load_system_metadata(run_dir, slurm_system.output_path)
+        meta = SlurmReportItem.get_metadata(run_dir, slurm_system.output_path)
         assert meta is not None
         assert meta.slurm.node_list == slurm_metadata.slurm.node_list
 
@@ -405,186 +293,13 @@ def test_metadata_for_single_sbatch(self, slurm_system: SlurmSystem, slurm_metad
         with open(slurm_system.output_path / "metadata" / "node-0.toml", "w") as f:
             toml.dump(slurm_metadata.model_dump(), f)
 
-        meta = load_system_metadata(run_dir, slurm_system.output_path)
+        meta = SlurmReportItem.get_metadata(run_dir, slurm_system.output_path)
         assert meta is not None
         assert meta.slurm.node_list == slurm_metadata.slurm.node_list
 
 
-def test_report_item_from_test_runs_includes_logs_and_metadata(
-    slurm_system: SlurmSystem, benchmark_tr: TestRun, slurm_metadata: SlurmSystemMetadata
-) -> None:
-    run_dir = slurm_system.output_path / benchmark_tr.name / "0"
-    metadata_dir = run_dir / "metadata"
-    metadata_dir.mkdir(parents=True, exist_ok=True)
-    with open(metadata_dir / "node-0.toml", "w") as f:
-        toml.dump(slurm_metadata.model_dump(), f)
-
-    benchmark_tr.output_path = run_dir
-    items = ReportItem.from_test_runs([benchmark_tr], slurm_system.output_path)
-
-    assert len(items) == 1
-    assert items[0].logs_path == f"./{benchmark_tr.name}/0"
-    assert items[0].nodes is not None
-    assert items[0].nodes.slurm.node_list == slurm_metadata.slurm.node_list
-    assert items[0].status_text == "FAILED"
-    assert items[0].status_class == "failed"
-
-
 def test_report_order() -> None:
     reports = Registry().ordered_scenario_reports()
     assert reports[0][0] == "per_test"
     assert reports[-2][0] == "status"
     assert reports[-1][0] == "tarball"
-
-
-def test_dse_summary_and_best_config_artifacts(slurm_system: SlurmSystem, slurm_metadata: SlurmSystemMetadata) -> None:
-    dse_tr = _create_dse_report_fixture(slurm_system, slurm_metadata)
-    _, summaries = _build_dse_summaries(slurm_system, dse_tr)
-
-    assert len(summaries) == 1
-    summary = summaries[0]
-    assert summary.total_space == 8
-    assert summary.executed_steps == 3
-    assert summary.skipped_steps == 5
-    assert summary.best_step == 2
-    assert summary.best_reward == pytest.approx(3.0)
-    assert summary.avg_step_duration_sec == pytest.approx(20.0)
-    assert summary.total_runtime_sec == pytest.approx(60.0)
-    assert summary.saved_runtime_sec == pytest.approx(100.0)
-    assert summary.saved_gpu_hours == pytest.approx((100.0 / 3600.0) * 16)
-    assert summary.estimated_saved_cost_usd == pytest.approx((summary.saved_gpu_hours or 0) * 4.5)
-    assert summary.best_config_rel_path == f"./{dse_tr.name}/0/{dse_tr.name}.toml"
-    assert summary.reward_chart_data is not None
-    assert summary.reward_chart_data["labels"] == [1, 2, 3]
-    assert summary.reward_chart_data["rewards"] == pytest.approx([1.5, 3.0, 2.0])
-    assert summary.reward_chart_data["observations"] == ["2.5", "1.2", "1.8"]
-    assert summary.reward_chart_data["best_index"] == 1
-    assert summary.effort_chart_data is not None
-    assert summary.effort_chart_data["explored_ratio"] == pytest.approx(3 / 8)
-    assert summary.effort_chart_data["explored_percent"] == pytest.approx(37.5)
-    assert summary.effort_chart_data["avoided_percent"] == pytest.approx(62.5)
-    assert summary.effort_chart_data["reduction_factor"] == pytest.approx(8 / 3)
-    assert summary.effort_chart_data["executed_steps"] == 3
-    assert summary.effort_chart_data["total_space"] == 8
-
-    best_values = {row.name: row.best_value for row in summary.parameter_rows}
-    assert best_values["nthreads"] == "2"
-    assert best_values["datatype"] == "uint8"
-    assert best_values["blocking"] == "1"
-
-    best_config_path = slurm_system.output_path / dse_tr.name / "0" / DSEReportBuilder.best_config_file_name(dse_tr)
-    assert best_config_path.exists()
-
-    best_config = toml.load(best_config_path)
-    assert best_config["agent_steps"] == 3
-    assert best_config["cmd_args"]["datatype"] == "uint8"
-    assert best_config["cmd_args"]["blocking"] == 1
-    assert best_config["cmd_args"]["nthreads"] == 2
-
-    inline_best_config = toml.loads(summary.best_config_toml or "")
-    assert inline_best_config["cmd_args"]["datatype"] == "uint8"
-    assert inline_best_config["cmd_args"]["blocking"] == 1
-    assert inline_best_config["cmd_args"]["nthreads"] == 2
-
-
-def test_dse_generate_scenario_report_renders_html(
-    slurm_system: SlurmSystem, slurm_metadata: SlurmSystemMetadata
-) -> None:
-    dse_tr = _create_dse_report_fixture(slurm_system, slurm_metadata)
-    reporter = StatusReporter(
-        slurm_system,
-        TestScenario(name="dse_scenario", test_runs=[dse_tr]),
-        slurm_system.output_path,
-        ReportConfig(),
-    )
-
-    reporter.generate()
-
-    report_path = slurm_system.output_path / "dse_scenario.html"
-    html = report_path.read_text()
-    assert "cdn.jsdelivr.net/npm/chart.js" in html
-    assert "DSE Cases" in html
-    assert "Switch between DSE test cases in this scenario." in html
-    assert "js-dse-tab-button" in html
-    assert "Saved GPU-Hours" in html
-    assert "Exploration Efficiency" in html
-    assert "3 / 8 steps" in html
-    assert "reduction in search space" in html
-    assert "Reward Over Steps" in html
-    assert "Best Config TOML" in html
-    assert "Copy TOML" in html
-    assert "BO Analysis" in html
-    assert "All Steps" in html
-    assert "efficiency-ratio" in html
-    assert "js-reward-chart" in html
-    assert "chart-shell" in html
-    assert 'class="value-pill value-pill--selected"' in html
-    assert "Execution Context" not in html
-    assert "Exploration Mix" not in html
-    assert "Skipped" not in html
-    assert "Coverage" not in html
-    assert "GPU Family" not in html
-    assert "<th>Best</th>" not in html
-    assert "status-pill--passed" in html
-    assert "1m 40s" in html
-
-
-def test_mixed_scenario_renders_dse_tabs_and_standard_table(
-    slurm_system: SlurmSystem, slurm_metadata: SlurmSystemMetadata, benchmark_tr: TestRun
-) -> None:
-    dse_tr_a = _create_dse_report_fixture(slurm_system, slurm_metadata, name="dse-report-a", description="DSE A")
-    dse_tr_b = _create_dse_report_fixture(slurm_system, slurm_metadata, name="dse-report-b", description="DSE B")
-
-    benchmark_dir = slurm_system.output_path / benchmark_tr.name / "0"
-    benchmark_dir.mkdir(parents=True, exist_ok=True)
-
-    reporter = StatusReporter(
-        slurm_system,
-        TestScenario(name="mixed_scenario", test_runs=[dse_tr_a, benchmark_tr, dse_tr_b]),
-        slurm_system.output_path,
-        ReportConfig(),
-    )
-
-    reporter.generate()
-
-    html = (slurm_system.output_path / "mixed_scenario.html").read_text()
-    assert "DSE Cases" in html
-    assert "dse-report-a" in html
-    assert "dse-report-b" in html
-    assert html.count('data-tab-target="dse-case-') == 2
-    assert 'id="reward-chart-data-0-0"' in html
-    assert 'id="reward-chart-data-1-0"' in html
-    assert "All Steps" in html
-    assert benchmark_tr.name in html
-
-
-def test_effort_chart_uses_break_for_large_search_space() -> None:
-    chart_data = _build_effort_chart_data(30, 100_000)
-
-    assert chart_data is not None
-    assert chart_data["explored_percent"] == pytest.approx(0.03)
-    assert chart_data["avoided_percent"] == pytest.approx(99.97)
-    assert chart_data["reduction_factor"] == pytest.approx(100_000 / 30)
-
-
-def test_dse_console_summary_is_compact(
-    slurm_system: SlurmSystem, slurm_metadata: SlurmSystemMetadata, caplog: pytest.LogCaptureFixture
-) -> None:
-    dse_tr = _create_dse_report_fixture(slurm_system, slurm_metadata)
-    reporter, summaries = _build_dse_summaries(slurm_system, dse_tr)
-    with caplog.at_level("INFO"):
-        reporter.to_console(summaries)
-
-    assert "steps=3/8" in caplog.text
-    assert "best_step=2" in caplog.text
-    assert "dse-report.toml" in caplog.text
-    assert "step=1" not in caplog.text
-
-
-def test_unknown_gpu_family_omits_estimated_cost(
-    slurm_system: SlurmSystem, slurm_metadata: SlurmSystemMetadata
-) -> None:
-    dse_tr = _create_dse_report_fixture(slurm_system, slurm_metadata, gpu_name="Mystery GPU")
-    _reporter, summaries = _build_dse_summaries(slurm_system, dse_tr)
-
-    assert summaries[0].estimated_saved_cost_usd is None

From d3d894e44a40bdb8fc4094825c9a9828aaebe14d Mon Sep 17 00:00:00 2001
From: Ivan Podkidyshev <ipodkidyshev@nvidia.com>
Date: Tue, 24 Mar 2026 23:19:06 +0100
Subject: [PATCH 23/30] reverted test_reporter

---
 src/cloudai/report_generator/dse_report.py |  41 ++-
 src/cloudai/report_generator/util.py       |   1 -
 src/cloudai/reporter.py                    |   6 +-
 src/cloudai/util/general-report.jinja2     |   2 +-
 tests/test_init.py                         |   5 +-
 tests/test_reporter.py                     | 385 +++++++++++++++++++--
 6 files changed, 387 insertions(+), 53 deletions(-)

diff --git a/src/cloudai/report_generator/dse_report.py b/src/cloudai/report_generator/dse_report.py
index edfbf18a0..5ff867f2f 100644
--- a/src/cloudai/report_generator/dse_report.py
+++ b/src/cloudai/report_generator/dse_report.py
@@ -29,39 +29,40 @@
 from cloudai.models.scenario import TestRunDetails
 from cloudai.systems.slurm import SlurmJobMetadata
 from cloudai.util.lazy_imports import lazy
+
 from .util import load_system_metadata
 
+# https://gpus.io/en/gpus
+# https://getdeploying.com/gpus
+# https://docs.coreweave.com/platform/instances/gpu/
 GPU_HOURLY_COST_USD = {
-    "H100": 4.50,
-    "B200": 8.00,
-    "GB200": 10.00,
-    "GB300": 12.00,
+    "H100": 3.0,
+    "B200": 5.5,
+    "GB200": 11.00,
+    "GB300": 8.0,
 }
 
 
 @dataclass(frozen=True)
 class DSEParameterValue:
+    """Represents DSE dimension value."""
+
     text: str
     is_best: bool
 
 
 @dataclass(frozen=True)
 class DSEParameterRow:
-    name: str
-    values: list[DSEParameterValue]
-
+    """Represents a dimension in DSE."""
 
-@dataclass(frozen=True)
-class DSEStepRow:
     name: str
-    status_text: str
-    status_class: str
-    logs_path: str | None
-    nodes_text: str
+    values: list[DSEParameterValue]
 
 
 @dataclass(frozen=True)
 class DSECaseIterationSummary:
+    """Summary for DSE case iteration."""
+
     name: str
     saved_time: str
     saved_gpu_hours: str
@@ -78,6 +79,8 @@ class DSECaseIterationSummary:
 
 @dataclass(frozen=True)
 class TrajectoryStep:
+    """Enriched trajectory step for DSE."""
+
     step: int
     reward: float
     observation_text: str
@@ -153,15 +156,13 @@ def _step_elapsed_time(step_dir: Path) -> int | None:
 
 def calculate_saved_gpu_hours(
     system: System,
-    total_runtime_sec: float | None,
-    projected_runtime_sec: float | None,
+    total_runtime_sec: float,
+    projected_runtime_sec: float,
     test_run_details: TestRunDetails,
 ) -> float | None:
     gpus_per_node = getattr(system, "gpus_per_node", None)
     total_gpu_hours = (
-        (total_runtime_sec / 3600.0) * test_run_details.nnodes * gpus_per_node
-        if gpus_per_node is not None
-        else None
+        (total_runtime_sec / 3600.0) * test_run_details.nnodes * gpus_per_node if gpus_per_node is not None else None
     )
     projected_gpu_hours = (
         (projected_runtime_sec / 3600.0) * test_run_details.nnodes * gpus_per_node
@@ -336,9 +337,7 @@ def build_dse_summaries(
 
         for iteration in range(test_case.iterations):
             dse_iteration_runs = [
-                tr
-                for tr in loaded_test_runs
-                if tr.name == test_case.name and tr.current_iteration == iteration
+                tr for tr in loaded_test_runs if tr.name == test_case.name and tr.current_iteration == iteration
             ]
 
             iteration_dir = case_root / str(iteration)
diff --git a/src/cloudai/report_generator/util.py b/src/cloudai/report_generator/util.py
index 53c2c7b43..969ce9db6 100644
--- a/src/cloudai/report_generator/util.py
+++ b/src/cloudai/report_generator/util.py
@@ -206,4 +206,3 @@ def load_system_metadata(run_dir: Path, results_root: Path) -> SlurmSystemMetada
         except Exception as exc:
             logging.debug(f"Error validating metadata for {node_files[0]}: {exc}")
             return None
-
diff --git a/src/cloudai/reporter.py b/src/cloudai/reporter.py
index 3a7a61891..c6a03cced 100644
--- a/src/cloudai/reporter.py
+++ b/src/cloudai/reporter.py
@@ -27,12 +27,12 @@
 from rich.console import Console
 from rich.table import Table
 
+from cloudai.report_generator.dse_report import build_dse_summaries
+from cloudai.report_generator.util import load_system_metadata
 from cloudai.util.lazy_imports import lazy
 
 from .core import CommandGenStrategy, Reporter, TestRun, case_name
 from .models.scenario import TestRunDetails
-from cloudai.report_generator.dse_report import build_dse_summaries
-from cloudai.report_generator.util import load_system_metadata
 
 
 @dataclass
@@ -136,6 +136,8 @@ def print_summary(self) -> None:
 
 
 class DSEReporter(Reporter):
+    """Detailed reports for DSE test cases."""
+
     @property
     def templates_dir(self) -> Path:
         return Path(__file__).parent / "util"
diff --git a/src/cloudai/util/general-report.jinja2 b/src/cloudai/util/general-report.jinja2
index b19189ca8..7f3f88cc0 100644
--- a/src/cloudai/util/general-report.jinja2
+++ b/src/cloudai/util/general-report.jinja2
@@ -25,4 +25,4 @@
     </tr>
     {% endfor %}
 </table>
-{% endblock %}
\ No newline at end of file
+{% endblock %}
diff --git a/tests/test_init.py b/tests/test_init.py
index db998c0e1..fa442e53d 100644
--- a/tests/test_init.py
+++ b/tests/test_init.py
@@ -16,7 +16,7 @@
 
 
 from cloudai.core import Registry
-from cloudai.reporter import PerTestReporter, StatusReporter, TarballReporter
+from cloudai.reporter import DSEReporter, PerTestReporter, StatusReporter, TarballReporter
 from cloudai.systems.kubernetes import KubernetesSystem
 from cloudai.systems.lsf import LSFInstaller, LSFSystem
 from cloudai.systems.runai import RunAIInstaller, RunAISystem
@@ -260,6 +260,7 @@ def test_scenario_reports():
     assert list(scenario_reports.keys()) == [
         "per_test",
         "status",
+        "dse",
         "tarball",
         "nixl_bench_summary",
         "nccl_comparison",
@@ -268,6 +269,7 @@ def test_scenario_reports():
     assert list(scenario_reports.values()) == [
         PerTestReporter,
         StatusReporter,
+        DSEReporter,
         TarballReporter,
         NIXLBenchComparisonReport,
         NcclComparisonReport,
@@ -280,6 +282,7 @@ def test_report_configs():
     assert list(configs.keys()) == [
         "per_test",
         "status",
+        "dse",
         "tarball",
         "nixl_bench_summary",
         "nccl_comparison",
diff --git a/tests/test_reporter.py b/tests/test_reporter.py
index 547c588c7..7d38b2374 100644
--- a/tests/test_reporter.py
+++ b/tests/test_reporter.py
@@ -15,17 +15,28 @@
 # limitations under the License.
 
 import copy
+import csv
 import tarfile
+from dataclasses import asdict
 from pathlib import Path
+from typing import Any
 
 import pytest
 import toml
 
 from cloudai import TestRun, TestScenario
 from cloudai.cli.handlers import generate_reports
-from cloudai.core import Registry, Reporter, System
-from cloudai.models.scenario import ReportConfig
-from cloudai.reporter import PerTestReporter, SlurmReportItem, StatusReporter, TarballReporter
+from cloudai.core import CommandGenStrategy, Registry, Reporter, System
+from cloudai.models.scenario import ReportConfig, TestRunDetails
+from cloudai.report_generator.dse_report import (
+    build_dse_summaries,
+    calculate_saved_gpu_hours,
+    calculate_savings,
+    format_duration,
+    format_float,
+    format_money,
+)
+from cloudai.reporter import DSEReporter, PerTestReporter, ReportItem, StatusReporter, TarballReporter
 from cloudai.systems.slurm.slurm_metadata import (
     MetadataCUDA,
     MetadataMPI,
@@ -33,6 +44,8 @@
     MetadataNetwork,
     MetadataSlurm,
     MetadataSystem,
+    SlurmJobMetadata,
+    SlurmStepMetadata,
     SlurmSystemMetadata,
 )
 from cloudai.systems.slurm.slurm_system import SlurmSystem
@@ -92,20 +105,6 @@ def test_create_tarball_preserves_full_name(tmp_path: Path, slurm_system: SlurmS
         assert f"{results_dir.name}/dummy.txt" in tar.getnames()
 
 
-def test_best_dse_config(dse_tr: TestRun, slurm_system: SlurmSystem) -> None:
-    reporter = StatusReporter(
-        slurm_system, TestScenario(name="test_scenario", test_runs=[dse_tr]), slurm_system.output_path, ReportConfig()
-    )
-    reporter.report_best_dse_config()
-    best_config_path = (
-        reporter.results_root / dse_tr.name / f"{dse_tr.current_iteration}" / reporter.best_dse_config_file_name(dse_tr)
-    )
-    assert best_config_path.exists()
-    nccl = NCCLTestDefinition.model_validate(toml.load(best_config_path))
-    assert isinstance(nccl.cmd_args, NCCLCmdArgs)
-    assert nccl.agent_steps == 12
-
-
 @pytest.mark.parametrize(
     "system",
     [
@@ -265,26 +264,61 @@ class TestSlurmReportItem:
     def test_no_metadata_folder(self, slurm_system: SlurmSystem) -> None:
         run_dir = slurm_system.output_path / "run_dir"
         run_dir.mkdir(parents=True, exist_ok=True)
+        tr = TestRun(
+            name="run_dir",
+            test=NCCLTestDefinition(
+                name="nccl",
+                description="NCCL test",
+                test_template_name="NcclTest",
+                cmd_args=NCCLCmdArgs(docker_image_url="fake://url/nccl"),
+            ),
+            num_nodes=1,
+            nodes=["node1"],
+            output_path=run_dir,
+        )
 
-        meta = SlurmReportItem.get_metadata(run_dir, slurm_system.output_path)
-        assert meta is None
+        [report_item] = ReportItem.from_test_runs([tr], slurm_system.output_path)
+        assert report_item.nodes is None
 
     def test_no_metadata_files(self, slurm_system: SlurmSystem) -> None:
         run_dir = slurm_system.output_path / "run_dir"
         (run_dir / "metadata").mkdir(parents=True, exist_ok=True)
+        tr = TestRun(
+            name="run_dir",
+            test=NCCLTestDefinition(
+                name="nccl",
+                description="NCCL test",
+                test_template_name="NcclTest",
+                cmd_args=NCCLCmdArgs(docker_image_url="fake://url/nccl"),
+            ),
+            num_nodes=1,
+            nodes=["node1"],
+            output_path=run_dir,
+        )
 
-        meta = SlurmReportItem.get_metadata(run_dir, slurm_system.output_path)
-        assert meta is None
+        [report_item] = ReportItem.from_test_runs([tr], slurm_system.output_path)
+        assert report_item.nodes is None
 
     def test_metadata_file_in_run_dir(self, slurm_system: SlurmSystem, slurm_metadata: SlurmSystemMetadata) -> None:
         run_dir = slurm_system.output_path / "run_dir"
         (run_dir / "metadata").mkdir(parents=True, exist_ok=True)
         with open(run_dir / "metadata" / "node-0.toml", "w") as f:
             toml.dump(slurm_metadata.model_dump(), f)
+        tr = TestRun(
+            name="run_dir",
+            test=NCCLTestDefinition(
+                name="nccl",
+                description="NCCL test",
+                test_template_name="NcclTest",
+                cmd_args=NCCLCmdArgs(docker_image_url="fake://url/nccl"),
+            ),
+            num_nodes=1,
+            nodes=["node1"],
+            output_path=run_dir,
+        )
 
-        meta = SlurmReportItem.get_metadata(run_dir, slurm_system.output_path)
-        assert meta is not None
-        assert meta.slurm.node_list == slurm_metadata.slurm.node_list
+        [report_item] = ReportItem.from_test_runs([tr], slurm_system.output_path)
+        assert report_item.nodes == slurm_metadata.slurm.node_list
 
     def test_metadata_for_single_sbatch(self, slurm_system: SlurmSystem, slurm_metadata: SlurmSystemMetadata) -> None:
         run_dir = slurm_system.output_path / "run_dir"
@@ -292,14 +326,311 @@ def test_metadata_for_single_sbatch(self, slurm_system: SlurmSystem, slurm_metad
         (slurm_system.output_path / "metadata").mkdir(parents=True, exist_ok=True)
         with open(slurm_system.output_path / "metadata" / "node-0.toml", "w") as f:
             toml.dump(slurm_metadata.model_dump(), f)
+        tr = TestRun(
+            name="run_dir",
+            test=NCCLTestDefinition(
+                name="nccl",
+                description="NCCL test",
+                test_template_name="NcclTest",
+                cmd_args=NCCLCmdArgs(docker_image_url="fake://url/nccl"),
+            ),
+            num_nodes=1,
+            nodes=["node1"],
+            output_path=run_dir,
+        )
 
-        meta = SlurmReportItem.get_metadata(run_dir, slurm_system.output_path)
-        assert meta is not None
-        assert meta.slurm.node_list == slurm_metadata.slurm.node_list
+        [report_item] = ReportItem.from_test_runs([tr], slurm_system.output_path)
+        assert report_item.nodes == slurm_metadata.slurm.node_list
 
 
 def test_report_order() -> None:
     reports = Registry().ordered_scenario_reports()
     assert reports[0][0] == "per_test"
+    assert any(name == "dse" for name, _ in reports)
     assert reports[-2][0] == "status"
     assert reports[-1][0] == "tarball"
+
+
+def _write_slurm_job(step_dir: Path, elapsed_time_sec: int) -> None:
+    metadata = SlurmJobMetadata(
+        job_id=12345,
+        name=step_dir.name,
+        state="COMPLETED",
+        start_time="2026-03-24T12:00:00",
+        end_time="2026-03-24T12:05:00",
+        elapsed_time_sec=elapsed_time_sec,
+        exit_code="0:0",
+        srun_cmd="srun echo test",
+        test_cmd="echo test",
+        is_single_sbatch=False,
+        job_root=step_dir,
+        job_steps=[
+            SlurmStepMetadata(
+                job_id=12345,
+                step_id="0",
+                name=step_dir.name,
+                state="COMPLETED",
+                start_time="2026-03-24T12:00:00",
+                end_time="2026-03-24T12:05:00",
+                elapsed_time_sec=elapsed_time_sec,
+                exit_code="0:0",
+                submit_line="srun echo test",
+            )
+        ],
+    )
+    with (step_dir / "slurm-job.toml").open("w") as f:
+        toml.dump(metadata.model_dump(mode="json"), f)
+
+
+def _write_slurm_system_metadata(step_dir: Path, slurm_metadata: SlurmSystemMetadata) -> None:
+    metadata_dir = step_dir / "metadata"
+    metadata_dir.mkdir(parents=True, exist_ok=True)
+    with (metadata_dir / "node-0.toml").open("w") as f:
+        toml.dump(slurm_metadata.model_dump(), f)
+
+
+def _create_non_dse_iteration(case: TestRun, iteration: int, results_root: Path) -> None:
+    iteration_dir = results_root / case.name / str(iteration)
+    iteration_dir.mkdir(parents=True, exist_ok=True)
+
+
+def _create_dse_iteration(
+    case: TestRun,
+    iteration: int,
+    system: SlurmSystem,
+    results_root: Path,
+    slurm_metadata: SlurmSystemMetadata,
+    steps: list[dict[str, Any]],
+) -> dict:
+    iteration_dir = results_root / case.name / str(iteration)
+    iteration_dir.mkdir(parents=True, exist_ok=True)
+
+    with (iteration_dir / "trajectory.csv").open("w", newline="") as f:
+        writer = csv.writer(f)
+        writer.writerow(["step", "action", "reward", "observation"])
+        for step in steps:
+            step_no = step["step"]
+            writer.writerow([step_no, step["action"], step["reward"], step["observation"]])
+
+            step_dir = iteration_dir / str(step_no)
+            step_dir.mkdir(parents=True, exist_ok=True)
+            _write_slurm_job(step_dir, int(step["elapsed_time_sec"]))
+            _write_slurm_system_metadata(step_dir, slurm_metadata)
+
+            step_tr = case.apply_params_set(step["action"])
+            step_tr.current_iteration = iteration
+            step_tr.step = step_no
+            step_tr.output_path = step_dir
+            with (step_dir / CommandGenStrategy.TEST_RUN_DUMP_FILE_NAME).open("w") as dump_file:
+                toml.dump(TestRunDetails.from_test_run(step_tr, "", "").model_dump(mode="json"), dump_file)
+
+    best_step = max(steps, key=lambda item: float(item["reward"]))
+    best_tr = case.apply_params_set(best_step["action"])
+    best_tr.current_iteration = iteration
+    best_tr.step = int(best_step["step"])
+    best_tr.output_path = iteration_dir / str(best_step["step"])
+
+    elapsed_times = [int(step["elapsed_time_sec"]) for step in steps]
+    total_observed_runtime_sec = sum(elapsed_times)
+    avg_step_duration_sec = total_observed_runtime_sec / len(elapsed_times)
+    total_space = len(case.all_combinations)
+    projected_runtime_sec = avg_step_duration_sec * total_space
+    saved_runtime_sec = max(projected_runtime_sec - total_observed_runtime_sec, 0.0)
+    test_run_details = TestRunDetails.from_test_run(best_tr, "", "")
+    saved_gpu_hours = calculate_saved_gpu_hours(
+        system=system,
+        total_runtime_sec=total_observed_runtime_sec,
+        projected_runtime_sec=projected_runtime_sec,
+        test_run_details=test_run_details,
+    )
+    saved_usd = calculate_savings(saved_gpu_hours, slurm_metadata.system.gpu_arch_type)
+    reduction_factor = total_space / len(steps)
+
+    return {
+        "name": f"{case.name}-{iteration}",
+        "saved_time": format_duration(saved_runtime_sec),
+        "saved_gpu_hours": format_float(saved_gpu_hours, 2),
+        "saved_usd": format_money(saved_usd),
+        "gpu_label": slurm_metadata.system.gpu_arch_type,
+        "avg_step_runtime": format_duration(avg_step_duration_sec),
+        "observed_runtime": format_duration(total_observed_runtime_sec),
+        "efficiency_ratio": f"~{format_float(reduction_factor, 1)}x",
+        "efficiency_steps": f"{len(steps):,} / {total_space:,} steps",
+        "best_config_toml": toml.dumps(test_run_details.test_definition.model_dump()),
+        "parameter_rows": [
+            {
+                "name": name,
+                "values": [
+                    {
+                        "text": str(value),
+                        "is_best": str(value) == str(best_step["action"].get(name, "n/a")),
+                    }
+                    for value in values
+                ],
+            }
+            for name, values in case.param_space.items()
+        ],
+        "reward_chart_data": {
+            "labels": [int(step["step"]) for step in steps],
+            "rewards": [float(step["reward"]) for step in steps],
+            "observations": [", ".join(str(v) for v in step["observation"]) for step in steps],
+            "best_index": max(range(len(steps)), key=lambda idx: float(steps[idx]["reward"])),
+        },
+    }
+
+
+def test_dse_reporter_builds_mixed_case_summaries_and_outputs(
+    slurm_system: SlurmSystem,
+    slurm_metadata: SlurmSystemMetadata,
+) -> None:
+    slurm_metadata.system.gpu_arch_type = "NVIDIA H100 80GB HBM3"
+
+    dse_case_a = TestRun(
+        name="dse-case-a",
+        test=NCCLTestDefinition(
+            name="nccl",
+            description="NCCL case A",
+            test_template_name="NcclTest",
+            cmd_args=NCCLCmdArgs(docker_image_url="fake://url/nccl", ngpus=[1, 2]),
+            extra_env_vars={"VAR1": ["value1", "value2"]},
+            agent_steps=3,
+        ),
+        num_nodes=1,
+        nodes=["node1"],
+        iterations=2,
+    )
+    dse_case_b = TestRun(
+        name="dse-case-b",
+        test=NCCLTestDefinition(
+            name="nccl",
+            description="NCCL case B",
+            test_template_name="NcclTest",
+            cmd_args=NCCLCmdArgs(docker_image_url="fake://url/nccl"),
+            extra_env_vars={"VAR2": ["x", "y", "z"]},
+            agent_steps=2,
+        ),
+        num_nodes=1,
+        nodes=["node2"],
+        iterations=1,
+    )
+    benchmark_case = TestRun(
+        name="benchmark-case",
+        test=NCCLTestDefinition(
+            name="nccl",
+            description="Regular benchmark",
+            test_template_name="NcclTest",
+            cmd_args=NCCLCmdArgs(docker_image_url="fake://url/nccl"),
+        ),
+        num_nodes=1,
+        nodes=["node3"],
+        iterations=1,
+    )
+
+    expected = [
+        _create_dse_iteration(
+            dse_case_a,
+            iteration=0,
+            system=slurm_system,
+            results_root=slurm_system.output_path,
+            slurm_metadata=slurm_metadata,
+            steps=[
+                {
+                    "step": 0,
+                    "action": {"ngpus": 1, "extra_env_vars.VAR1": "value1"},
+                    "reward": -10.0,
+                    "observation": [10],
+                    "elapsed_time_sec": 60,
+                },
+                {
+                    "step": 1,
+                    "action": {"ngpus": 2, "extra_env_vars.VAR1": "value1"},
+                    "reward": -5.0,
+                    "observation": [5],
+                    "elapsed_time_sec": 120,
+                },
+                {
+                    "step": 2,
+                    "action": {"ngpus": 2, "extra_env_vars.VAR1": "value2"},
+                    "reward": -7.0,
+                    "observation": [7],
+                    "elapsed_time_sec": 180,
+                },
+            ],
+        ),
+        _create_dse_iteration(
+            dse_case_a,
+            iteration=1,
+            system=slurm_system,
+            results_root=slurm_system.output_path,
+            slurm_metadata=slurm_metadata,
+            steps=[
+                {
+                    "step": 0,
+                    "action": {"ngpus": 1, "extra_env_vars.VAR1": "value2"},
+                    "reward": -8.0,
+                    "observation": [8],
+                    "elapsed_time_sec": 30,
+                },
+                {
+                    "step": 1,
+                    "action": {"ngpus": 2, "extra_env_vars.VAR1": "value2"},
+                    "reward": -3.0,
+                    "observation": [3],
+                    "elapsed_time_sec": 30,
+                },
+                {
+                    "step": 2,
+                    "action": {"ngpus": 1, "extra_env_vars.VAR1": "value1"},
+                    "reward": -9.0,
+                    "observation": [9],
+                    "elapsed_time_sec": 30,
+                },
+            ],
+        ),
+        _create_dse_iteration(
+            dse_case_b,
+            iteration=0,
+            system=slurm_system,
+            results_root=slurm_system.output_path,
+            slurm_metadata=slurm_metadata,
+            steps=[
+                {
+                    "step": 0,
+                    "action": {"extra_env_vars.VAR2": "x"},
+                    "reward": -100.0,
+                    "observation": [100],
+                    "elapsed_time_sec": 90,
+                },
+                {
+                    "step": 1,
+                    "action": {"extra_env_vars.VAR2": "y"},
+                    "reward": -20.0,
+                    "observation": [20],
+                    "elapsed_time_sec": 150,
+                },
+            ],
+        ),
+    ]
+    _create_non_dse_iteration(benchmark_case, iteration=0, results_root=slurm_system.output_path)
+
+    scenario = TestScenario(
+        name="mixed-dse-scenario",
+        test_runs=[dse_case_a, dse_case_b, benchmark_case],
+    )
+    reporter = DSEReporter(slurm_system, scenario, slurm_system.output_path, ReportConfig())
+    reporter.load_test_runs()
+
+    summaries = build_dse_summaries(
+        system=slurm_system,
+        results_root=slurm_system.output_path,
+        loaded_test_runs=reporter.trs,
+        test_cases=scenario.test_runs,
+    )
+
+    assert [asdict(summary) for summary in summaries] == expected
+
+    reporter.generate()
+
+    assert (slurm_system.output_path / "mixed-dse-scenario-dse-report.html").exists()
+    assert (slurm_system.output_path / dse_case_a.name / "0" / f"{dse_case_a.name}.toml").exists()
+    assert (slurm_system.output_path / dse_case_b.name / "0" / f"{dse_case_b.name}.toml").exists()

From 7c0cf8f4042fc43720eea3d26d564d4998f39855 Mon Sep 17 00:00:00 2001
From: Ivan Podkidyshev <ipodkidyshev@nvidia.com>
Date: Tue, 24 Mar 2026 23:26:48 +0100
Subject: [PATCH 24/30] fix copyright

---
 src/cloudai/report_generator/dse_report.py | 2 +-
 src/cloudai/report_generator/util.py       | 2 +-
 src/cloudai/reporter.py                    | 6 +++++-
 3 files changed, 7 insertions(+), 3 deletions(-)

diff --git a/src/cloudai/report_generator/dse_report.py b/src/cloudai/report_generator/dse_report.py
index 5ff867f2f..e3625bd79 100644
--- a/src/cloudai/report_generator/dse_report.py
+++ b/src/cloudai/report_generator/dse_report.py
@@ -1,5 +1,5 @@
 # SPDX-FileCopyrightText: NVIDIA CORPORATION & AFFILIATES
-# Copyright (c) 2025-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# Copyright (c) 2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
 #
 # Licensed under the Apache License, Version 2.0 (the "License");
diff --git a/src/cloudai/report_generator/util.py b/src/cloudai/report_generator/util.py
index 969ce9db6..5a3254ca0 100644
--- a/src/cloudai/report_generator/util.py
+++ b/src/cloudai/report_generator/util.py
@@ -1,5 +1,5 @@
 # SPDX-FileCopyrightText: NVIDIA CORPORATION & AFFILIATES
-# Copyright (c) 2024-2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# Copyright (c) 2024-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
 #
 # Licensed under the Apache License, Version 2.0 (the "License");
diff --git a/src/cloudai/reporter.py b/src/cloudai/reporter.py
index c6a03cced..3ac54de92 100644
--- a/src/cloudai/reporter.py
+++ b/src/cloudai/reporter.py
@@ -144,7 +144,6 @@ def templates_dir(self) -> Path:
 
     def generate(self) -> None:
         self.load_test_runs()
-        self.report_best_dse_config()
 
         dse_cases = build_dse_summaries(
             system=self.system,
@@ -153,6 +152,11 @@ def generate(self) -> None:
             test_cases=self.test_scenario.test_runs,
         )
 
+        if not dse_cases:
+            return
+
+        self.report_best_dse_config()
+
         jinja_env = jinja2.Environment(loader=jinja2.FileSystemLoader(self.templates_dir))
         template = jinja_env.get_template("dse-report.jinja2")
 

From c1226780887d4d58d2f43f5175eb056e250b575c Mon Sep 17 00:00:00 2001
From: Ivan Podkidyshev <ipodkidyshev@nvidia.com>
Date: Wed, 25 Mar 2026 00:10:17 +0100
Subject: [PATCH 25/30] resolve ai feedback

---
 src/cloudai/_core/registry.py              |   3 +-
 src/cloudai/report_generator/dse_report.py |  30 +++++-
 src/cloudai/reporter.py                    |  15 ++-
 src/cloudai/util/dse-report.jinja2         |   5 +-
 tests/test_reporter.py                     | 106 +++------------------
 5 files changed, 56 insertions(+), 103 deletions(-)

diff --git a/src/cloudai/_core/registry.py b/src/cloudai/_core/registry.py
index b180b9cee..46e26b119 100644
--- a/src/cloudai/_core/registry.py
+++ b/src/cloudai/_core/registry.py
@@ -228,7 +228,8 @@ def report_order(k: str) -> int:
             return {
                 "per_test": 0,  # first
                 "status": 2,
-                "tarball": 3,  # last
+                "dse": 3,
+                "tarball": 4,  # last
             }.get(k, 1)
 
         return sorted(self.scenario_reports.items(), key=lambda kv: report_order(kv[0]))
diff --git a/src/cloudai/report_generator/dse_report.py b/src/cloudai/report_generator/dse_report.py
index e3625bd79..0d3f7ae88 100644
--- a/src/cloudai/report_generator/dse_report.py
+++ b/src/cloudai/report_generator/dse_report.py
@@ -138,7 +138,9 @@ def _normalize_gpu_family(gpu_name: str | None) -> str | None:
     if not gpu_name:
         return None
     upper = gpu_name.upper()
-    for family in GPU_HOURLY_COST_USD:
+
+    # sorted because of `B200 in GB200 is True`
+    for family in sorted(GPU_HOURLY_COST_USD, key=len, reverse=True):
         if family in upper:
             return family
     return None
@@ -150,7 +152,12 @@ def _step_elapsed_time(step_dir: Path) -> int | None:
         return None
 
     with slurm_job_path.open() as f:
-        metadata = SlurmJobMetadata.model_validate(toml.load(f))
+        try:
+            metadata = SlurmJobMetadata.model_validate(toml.load(f))
+        except Exception as exc:
+            logging.debug(f"Error validating slurm job metadata for {slurm_job_path}: {exc}")
+            return None
+
     return metadata.elapsed_time_sec
 
 
@@ -185,16 +192,26 @@ def calculate_savings(saved_gpu_hours: float | None, gpu_arch_label: str | None)
     )
 
 
+def get_best_step(steps: list[TrajectoryStep]) -> TrajectoryStep | None:
+    successful_steps = [step for step in steps if step.is_successful]
+    if not successful_steps:
+        return None
+    return max(successful_steps, key=lambda step: step.reward)
+
+
 def _build_reward_chart_data(steps: list[TrajectoryStep]) -> dict[str, Any] | None:
     if not steps:
         return None
 
-    best_index = max(range(len(steps)), key=lambda idx: steps[idx].reward)
+    best_step = get_best_step(steps)
+    if best_step is None:
+        return None
+
     return {
         "labels": [step.step for step in steps],
         "rewards": [step.reward for step in steps],
         "observations": [step.observation_text for step in steps],
-        "best_index": best_index,
+        "best_index": best_step.step,
     }
 
 
@@ -273,7 +290,10 @@ def _build_iteration_summary(
     if not trajectory_steps:
         return None
 
-    best_step = max(trajectory_steps, key=lambda step: step.reward)
+    best_step = get_best_step(trajectory_steps)
+    if best_step is None:
+        return None
+
     best_step_dump = iteration_dir / str(best_step.step) / CommandGenStrategy.TEST_RUN_DUMP_FILE_NAME
     if not best_step_dump.exists():
         logging.warning(f"No test run dump found for best DSE step at {best_step_dump}")
diff --git a/src/cloudai/reporter.py b/src/cloudai/reporter.py
index 3ac54de92..015a1313a 100644
--- a/src/cloudai/reporter.py
+++ b/src/cloudai/reporter.py
@@ -107,7 +107,7 @@ def generate_scenario_report(self) -> None:
         with report_path.open("w") as f:
             f.write(report)
 
-        logging.info(f"Generated scenario report at {report_path}")
+        logging.info("Generated scenario report at %s", report_path)
 
     def print_summary(self) -> None:
         if not self.trs:
@@ -175,17 +175,24 @@ def report_best_dse_config(self):
             tr_root = self.results_root / tr.name / f"{tr.current_iteration}"
             trajectory_file = tr_root / "trajectory.csv"
             if not trajectory_file.is_file():
-                logging.warning(f"No trajectory file found for {tr.name} at {trajectory_file}")
+                logging.warning("No trajectory file found for %s at %s", tr.name, trajectory_file)
                 continue
 
             df = lazy.pd.read_csv(trajectory_file)
             best_step = df.loc[df["reward"].idxmax()]["step"]
             best_step_details = tr_root / f"{best_step}" / CommandGenStrategy.TEST_RUN_DUMP_FILE_NAME
+            if not best_step_details.is_file():
+                logging.warning("No best step found for %s at %s", tr.name, best_step_details)
+                return
             with best_step_details.open() as f:
-                trd = TestRunDetails.model_validate(toml.load(f))
+                try:
+                    trd = TestRunDetails.model_validate(toml.load(f))
+                except Exception as exc:
+                    logging.warning("Failed to validate test run for %s: %s", tr.name, exc, exc_info=True)
+                    return
 
             best_config_path = tr_root / f"{tr.name}.toml"
-            logging.info(f"Writing best config for {tr.name} to {best_config_path}")
+            logging.info("Writing best config for %s to %s", tr.name, best_config_path)
             with best_config_path.open("w") as f:
                 toml.dump(trd.test_definition.model_dump(), f)
 
diff --git a/src/cloudai/util/dse-report.jinja2 b/src/cloudai/util/dse-report.jinja2
index cd0fd57a8..71609660c 100644
--- a/src/cloudai/util/dse-report.jinja2
+++ b/src/cloudai/util/dse-report.jinja2
@@ -408,7 +408,10 @@
 <script>
     document.addEventListener("DOMContentLoaded", function () {
         document.querySelectorAll(".js-copy-config").forEach((button) => {
-            button.addEventListener("click", async function () {
+            button.addEventListener("click", async function (event) {
+                event.preventDefault();
+                event.stopPropagation();
+
                 const target = document.getElementById(button.dataset.copyTarget);
                 if (!target) {
                     return;
diff --git a/tests/test_reporter.py b/tests/test_reporter.py
index 7d38b2374..5b795c7a4 100644
--- a/tests/test_reporter.py
+++ b/tests/test_reporter.py
@@ -346,8 +346,8 @@ def test_metadata_for_single_sbatch(self, slurm_system: SlurmSystem, slurm_metad
 def test_report_order() -> None:
     reports = Registry().ordered_scenario_reports()
     assert reports[0][0] == "per_test"
-    assert any(name == "dse" for name, _ in reports)
-    assert reports[-2][0] == "status"
+    assert reports[-3][0] == "status"
+    assert reports[-2][0] == "dse"
     assert reports[-1][0] == "tarball"
 
 
@@ -417,6 +417,9 @@ def _create_dse_iteration(
             _write_slurm_job(step_dir, int(step["elapsed_time_sec"]))
             _write_slurm_system_metadata(step_dir, slurm_metadata)
 
+            # NCCLTestDefinition.was_run_successful
+            (step_dir / "stdout.txt").write_text("# Out of bounds values# Avg bus bandwidth")
+
             step_tr = case.apply_params_set(step["action"])
             step_tr.current_iteration = iteration
             step_tr.step = step_no
@@ -479,17 +482,17 @@ def _create_dse_iteration(
     }
 
 
-def test_dse_reporter_builds_mixed_case_summaries_and_outputs(
+def test_dse_reporter(
     slurm_system: SlurmSystem,
     slurm_metadata: SlurmSystemMetadata,
 ) -> None:
     slurm_metadata.system.gpu_arch_type = "NVIDIA H100 80GB HBM3"
 
-    dse_case_a = TestRun(
-        name="dse-case-a",
+    dse_case = TestRun(
+        name="dse-case",
         test=NCCLTestDefinition(
             name="nccl",
-            description="NCCL case A",
+            description="NCCL case",
             test_template_name="NcclTest",
             cmd_args=NCCLCmdArgs(docker_image_url="fake://url/nccl", ngpus=[1, 2]),
             extra_env_vars={"VAR1": ["value1", "value2"]},
@@ -497,38 +500,12 @@ def test_dse_reporter_builds_mixed_case_summaries_and_outputs(
         ),
         num_nodes=1,
         nodes=["node1"],
-        iterations=2,
-    )
-    dse_case_b = TestRun(
-        name="dse-case-b",
-        test=NCCLTestDefinition(
-            name="nccl",
-            description="NCCL case B",
-            test_template_name="NcclTest",
-            cmd_args=NCCLCmdArgs(docker_image_url="fake://url/nccl"),
-            extra_env_vars={"VAR2": ["x", "y", "z"]},
-            agent_steps=2,
-        ),
-        num_nodes=1,
-        nodes=["node2"],
-        iterations=1,
-    )
-    benchmark_case = TestRun(
-        name="benchmark-case",
-        test=NCCLTestDefinition(
-            name="nccl",
-            description="Regular benchmark",
-            test_template_name="NcclTest",
-            cmd_args=NCCLCmdArgs(docker_image_url="fake://url/nccl"),
-        ),
-        num_nodes=1,
-        nodes=["node3"],
         iterations=1,
     )
 
     expected = [
         _create_dse_iteration(
-            dse_case_a,
+            dse_case,
             iteration=0,
             system=slurm_system,
             results_root=slurm_system.output_path,
@@ -557,65 +534,11 @@ def test_dse_reporter_builds_mixed_case_summaries_and_outputs(
                 },
             ],
         ),
-        _create_dse_iteration(
-            dse_case_a,
-            iteration=1,
-            system=slurm_system,
-            results_root=slurm_system.output_path,
-            slurm_metadata=slurm_metadata,
-            steps=[
-                {
-                    "step": 0,
-                    "action": {"ngpus": 1, "extra_env_vars.VAR1": "value2"},
-                    "reward": -8.0,
-                    "observation": [8],
-                    "elapsed_time_sec": 30,
-                },
-                {
-                    "step": 1,
-                    "action": {"ngpus": 2, "extra_env_vars.VAR1": "value2"},
-                    "reward": -3.0,
-                    "observation": [3],
-                    "elapsed_time_sec": 30,
-                },
-                {
-                    "step": 2,
-                    "action": {"ngpus": 1, "extra_env_vars.VAR1": "value1"},
-                    "reward": -9.0,
-                    "observation": [9],
-                    "elapsed_time_sec": 30,
-                },
-            ],
-        ),
-        _create_dse_iteration(
-            dse_case_b,
-            iteration=0,
-            system=slurm_system,
-            results_root=slurm_system.output_path,
-            slurm_metadata=slurm_metadata,
-            steps=[
-                {
-                    "step": 0,
-                    "action": {"extra_env_vars.VAR2": "x"},
-                    "reward": -100.0,
-                    "observation": [100],
-                    "elapsed_time_sec": 90,
-                },
-                {
-                    "step": 1,
-                    "action": {"extra_env_vars.VAR2": "y"},
-                    "reward": -20.0,
-                    "observation": [20],
-                    "elapsed_time_sec": 150,
-                },
-            ],
-        ),
     ]
-    _create_non_dse_iteration(benchmark_case, iteration=0, results_root=slurm_system.output_path)
 
     scenario = TestScenario(
-        name="mixed-dse-scenario",
-        test_runs=[dse_case_a, dse_case_b, benchmark_case],
+        name="single-dse-scenario",
+        test_runs=[dse_case],
     )
     reporter = DSEReporter(slurm_system, scenario, slurm_system.output_path, ReportConfig())
     reporter.load_test_runs()
@@ -631,6 +554,5 @@ def test_dse_reporter_builds_mixed_case_summaries_and_outputs(
 
     reporter.generate()
 
-    assert (slurm_system.output_path / "mixed-dse-scenario-dse-report.html").exists()
-    assert (slurm_system.output_path / dse_case_a.name / "0" / f"{dse_case_a.name}.toml").exists()
-    assert (slurm_system.output_path / dse_case_b.name / "0" / f"{dse_case_b.name}.toml").exists()
+    assert (slurm_system.output_path / "single-dse-scenario-dse-report.html").exists()
+    assert (slurm_system.output_path / dse_case.name / "0" / f"{dse_case.name}.toml").exists()

From 7e3ec64c2243e9b7777d34d33690c2ee1e906722 Mon Sep 17 00:00:00 2001
From: Ivan Podkidyshev <ipodkidyshev@nvidia.com>
Date: Wed, 25 Mar 2026 00:14:07 +0100
Subject: [PATCH 26/30] fix copyright check

---
 src/cloudai/_core/registry.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/src/cloudai/_core/registry.py b/src/cloudai/_core/registry.py
index 46e26b119..2e2adf6b7 100644
--- a/src/cloudai/_core/registry.py
+++ b/src/cloudai/_core/registry.py
@@ -1,5 +1,5 @@
 # SPDX-FileCopyrightText: NVIDIA CORPORATION & AFFILIATES
-# Copyright (c) 2024-2025 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# Copyright (c) 2024-2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
 #
 # Licensed under the Apache License, Version 2.0 (the "License");

From 30ccbe971f394aba2566b8c208eabe607c7d961f Mon Sep 17 00:00:00 2001
From: Ivan Podkidyshev <ipodkidyshev@nvidia.com>
Date: Wed, 25 Mar 2026 00:19:22 +0100
Subject: [PATCH 27/30] apply ai feedback

---
 src/cloudai/util/dse-report.jinja2 |  22 +++-
 tests/test_reporter.py             | 166 ++++++++++++-----------------
 2 files changed, 90 insertions(+), 98 deletions(-)

diff --git a/src/cloudai/util/dse-report.jinja2 b/src/cloudai/util/dse-report.jinja2
index 71609660c..4852dfd32 100644
--- a/src/cloudai/util/dse-report.jinja2
+++ b/src/cloudai/util/dse-report.jinja2
@@ -438,8 +438,18 @@
             buttons.forEach((button) => {
                 button.addEventListener("click", function () {
                     const target = button.dataset.tabTarget;
-                    buttons.forEach((candidate) => candidate.classList.toggle("is-active", candidate === button));
-                    panels.forEach((panel) => panel.classList.toggle("is-active", panel.dataset.tabPanel === target));
+                    buttons.forEach((candidate) => {
+                        const isActive = candidate === button;
+                        candidate.classList.toggle("is-active", isActive);
+                        candidate.setAttribute("aria-selected", isActive ? "true" : "false");
+                        candidate.setAttribute("tabindex", isActive ? "0" : "-1");
+                    });
+                    panels.forEach((panel) => {
+                        const isActive = panel.dataset.tabPanel === target;
+                        panel.classList.toggle("is-active", isActive);
+                        panel.toggleAttribute("hidden", !isActive);
+                        panel.setAttribute("aria-hidden", isActive ? "false" : "true");
+                    });
                 });
             });
         });
@@ -547,10 +557,13 @@
                 {% for summary in dse_cases %}
                 <button
                     type="button"
+                    id="dse-tab-{{ loop.index0 }}"
                     class="dse-tab-button js-dse-tab-button {% if loop.first %}is-active{% endif %}"
                     data-tab-target="dse-case-{{ loop.index0 }}"
                     role="tab"
                     aria-selected="{{ 'true' if loop.first else 'false' }}"
+                    aria-controls="dse-case-{{ loop.index0 }}"
+                    tabindex="{{ '0' if loop.first else '-1' }}"
                 >
                     {{ summary.name }}
                 </button>
@@ -560,7 +573,12 @@
             {% for summary in dse_cases %}
             <div
                 class="dse-tab-panel js-dse-tab-panel {% if loop.first %}is-active{% endif %}"
+                id="dse-case-{{ loop.index0 }}"
                 data-tab-panel="dse-case-{{ loop.index0 }}"
+                role="tabpanel"
+                aria-labelledby="dse-tab-{{ loop.index0 }}"
+                aria-hidden="{{ 'false' if loop.first else 'true' }}"
+                {% if not loop.first %}hidden{% endif %}
             >
                 <section class="dse-summary">
                     <div class="overview-board">
diff --git a/tests/test_reporter.py b/tests/test_reporter.py
index 5b795c7a4..41fc2feb6 100644
--- a/tests/test_reporter.py
+++ b/tests/test_reporter.py
@@ -28,14 +28,7 @@
 from cloudai.cli.handlers import generate_reports
 from cloudai.core import CommandGenStrategy, Registry, Reporter, System
 from cloudai.models.scenario import ReportConfig, TestRunDetails
-from cloudai.report_generator.dse_report import (
-    build_dse_summaries,
-    calculate_saved_gpu_hours,
-    calculate_savings,
-    format_duration,
-    format_float,
-    format_money,
-)
+from cloudai.report_generator.dse_report import build_dse_summaries
 from cloudai.reporter import DSEReporter, PerTestReporter, ReportItem, StatusReporter, TarballReporter
 from cloudai.systems.slurm.slurm_metadata import (
     MetadataCUDA,
@@ -397,11 +390,10 @@ def _create_non_dse_iteration(case: TestRun, iteration: int, results_root: Path)
 def _create_dse_iteration(
     case: TestRun,
     iteration: int,
-    system: SlurmSystem,
     results_root: Path,
     slurm_metadata: SlurmSystemMetadata,
     steps: list[dict[str, Any]],
-) -> dict:
+) -> None:
     iteration_dir = results_root / case.name / str(iteration)
     iteration_dir.mkdir(parents=True, exist_ok=True)
 
@@ -427,60 +419,6 @@ def _create_dse_iteration(
             with (step_dir / CommandGenStrategy.TEST_RUN_DUMP_FILE_NAME).open("w") as dump_file:
                 toml.dump(TestRunDetails.from_test_run(step_tr, "", "").model_dump(mode="json"), dump_file)
 
-    best_step = max(steps, key=lambda item: float(item["reward"]))
-    best_tr = case.apply_params_set(best_step["action"])
-    best_tr.current_iteration = iteration
-    best_tr.step = int(best_step["step"])
-    best_tr.output_path = iteration_dir / str(best_step["step"])
-
-    elapsed_times = [int(step["elapsed_time_sec"]) for step in steps]
-    total_observed_runtime_sec = sum(elapsed_times)
-    avg_step_duration_sec = total_observed_runtime_sec / len(elapsed_times)
-    total_space = len(case.all_combinations)
-    projected_runtime_sec = avg_step_duration_sec * total_space
-    saved_runtime_sec = max(projected_runtime_sec - total_observed_runtime_sec, 0.0)
-    test_run_details = TestRunDetails.from_test_run(best_tr, "", "")
-    saved_gpu_hours = calculate_saved_gpu_hours(
-        system=system,
-        total_runtime_sec=total_observed_runtime_sec,
-        projected_runtime_sec=projected_runtime_sec,
-        test_run_details=test_run_details,
-    )
-    saved_usd = calculate_savings(saved_gpu_hours, slurm_metadata.system.gpu_arch_type)
-    reduction_factor = total_space / len(steps)
-
-    return {
-        "name": f"{case.name}-{iteration}",
-        "saved_time": format_duration(saved_runtime_sec),
-        "saved_gpu_hours": format_float(saved_gpu_hours, 2),
-        "saved_usd": format_money(saved_usd),
-        "gpu_label": slurm_metadata.system.gpu_arch_type,
-        "avg_step_runtime": format_duration(avg_step_duration_sec),
-        "observed_runtime": format_duration(total_observed_runtime_sec),
-        "efficiency_ratio": f"~{format_float(reduction_factor, 1)}x",
-        "efficiency_steps": f"{len(steps):,} / {total_space:,} steps",
-        "best_config_toml": toml.dumps(test_run_details.test_definition.model_dump()),
-        "parameter_rows": [
-            {
-                "name": name,
-                "values": [
-                    {
-                        "text": str(value),
-                        "is_best": str(value) == str(best_step["action"].get(name, "n/a")),
-                    }
-                    for value in values
-                ],
-            }
-            for name, values in case.param_space.items()
-        ],
-        "reward_chart_data": {
-            "labels": [int(step["step"]) for step in steps],
-            "rewards": [float(step["reward"]) for step in steps],
-            "observations": [", ".join(str(v) for v in step["observation"]) for step in steps],
-            "best_index": max(range(len(steps)), key=lambda idx: float(steps[idx]["reward"])),
-        },
-    }
-
 
 def test_dse_reporter(
     slurm_system: SlurmSystem,
@@ -503,38 +441,36 @@ def test_dse_reporter(
         iterations=1,
     )
 
-    expected = [
-        _create_dse_iteration(
-            dse_case,
-            iteration=0,
-            system=slurm_system,
-            results_root=slurm_system.output_path,
-            slurm_metadata=slurm_metadata,
-            steps=[
-                {
-                    "step": 0,
-                    "action": {"ngpus": 1, "extra_env_vars.VAR1": "value1"},
-                    "reward": -10.0,
-                    "observation": [10],
-                    "elapsed_time_sec": 60,
-                },
-                {
-                    "step": 1,
-                    "action": {"ngpus": 2, "extra_env_vars.VAR1": "value1"},
-                    "reward": -5.0,
-                    "observation": [5],
-                    "elapsed_time_sec": 120,
-                },
-                {
-                    "step": 2,
-                    "action": {"ngpus": 2, "extra_env_vars.VAR1": "value2"},
-                    "reward": -7.0,
-                    "observation": [7],
-                    "elapsed_time_sec": 180,
-                },
-            ],
-        ),
+    steps = [
+        {
+            "step": 0,
+            "action": {"ngpus": 1, "extra_env_vars.VAR1": "value1"},
+            "reward": -10.0,
+            "observation": [10],
+            "elapsed_time_sec": 60,
+        },
+        {
+            "step": 1,
+            "action": {"ngpus": 2, "extra_env_vars.VAR1": "value1"},
+            "reward": -5.0,
+            "observation": [5],
+            "elapsed_time_sec": 120,
+        },
+        {
+            "step": 2,
+            "action": {"ngpus": 2, "extra_env_vars.VAR1": "value2"},
+            "reward": -7.0,
+            "observation": [7],
+            "elapsed_time_sec": 180,
+        },
     ]
+    _create_dse_iteration(
+        dse_case,
+        iteration=0,
+        results_root=slurm_system.output_path,
+        slurm_metadata=slurm_metadata,
+        steps=steps,
+    )
 
     scenario = TestScenario(
         name="single-dse-scenario",
@@ -550,7 +486,45 @@ def test_dse_reporter(
         test_cases=scenario.test_runs,
     )
 
-    assert [asdict(summary) for summary in summaries] == expected
+    best_tr = dse_case.apply_params_set({"ngpus": 2, "extra_env_vars.VAR1": "value1"})
+    best_tr.current_iteration = 0
+    best_tr.step = 1
+    expected = {
+        "name": "dse-case-0",
+        "saved_time": "2m",
+        "saved_gpu_hours": "0.27",
+        "saved_usd": "$0.80",
+        "gpu_label": "NVIDIA H100 80GB HBM3",
+        "avg_step_runtime": "2m",
+        "observed_runtime": "6m",
+        "efficiency_ratio": "~1.3x",
+        "efficiency_steps": "3 / 4 steps",
+        "best_config_toml": toml.dumps(TestRunDetails.from_test_run(best_tr, "", "").test_definition.model_dump()),
+        "parameter_rows": [
+            {
+                "name": "ngpus",
+                "values": [
+                    {"text": "1", "is_best": False},
+                    {"text": "2", "is_best": True},
+                ],
+            },
+            {
+                "name": "extra_env_vars.VAR1",
+                "values": [
+                    {"text": "value1", "is_best": True},
+                    {"text": "value2", "is_best": False},
+                ],
+            },
+        ],
+        "reward_chart_data": {
+            "labels": [0, 1, 2],
+            "rewards": [-10.0, -5.0, -7.0],
+            "observations": ["10", "5", "7"],
+            "best_index": 1,
+        },
+    }
+    assert len(summaries) == 1
+    assert asdict(summaries[0]) == expected
 
     reporter.generate()
 

From 5487c83fbb41b42ba2113a9aec0386462b171b4c Mon Sep 17 00:00:00 2001
From: Ivan Podkidyshev <ipodkidyshev@nvidia.com>
Date: Wed, 25 Mar 2026 00:22:48 +0100
Subject: [PATCH 28/30] fix best_index bug

---
 src/cloudai/report_generator/dse_report.py | 2 +-
 tests/test_reporter.py                     | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/src/cloudai/report_generator/dse_report.py b/src/cloudai/report_generator/dse_report.py
index 0d3f7ae88..efb85956e 100644
--- a/src/cloudai/report_generator/dse_report.py
+++ b/src/cloudai/report_generator/dse_report.py
@@ -211,7 +211,7 @@ def _build_reward_chart_data(steps: list[TrajectoryStep]) -> dict[str, Any] | No
         "labels": [step.step for step in steps],
         "rewards": [step.reward for step in steps],
         "observations": [step.observation_text for step in steps],
-        "best_index": best_step.step,
+        "best_index": best_step.step - 1,
     }
 
 
diff --git a/tests/test_reporter.py b/tests/test_reporter.py
index 41fc2feb6..a80bedd5c 100644
--- a/tests/test_reporter.py
+++ b/tests/test_reporter.py
@@ -520,7 +520,7 @@ def test_dse_reporter(
             "labels": [0, 1, 2],
             "rewards": [-10.0, -5.0, -7.0],
             "observations": ["10", "5", "7"],
-            "best_index": 1,
+            "best_index": 0,
         },
     }
     assert len(summaries) == 1

From 36d030b19ad07975e3b8e7db2b66faddb9ea2d2e Mon Sep 17 00:00:00 2001
From: Ivan Podkidyshev <ipodkidyshev@nvidia.com>
Date: Wed, 25 Mar 2026 00:25:09 +0100
Subject: [PATCH 29/30] replace return with continue in reporting best dse
 config

---
 src/cloudai/reporter.py | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/src/cloudai/reporter.py b/src/cloudai/reporter.py
index 015a1313a..ed64000ee 100644
--- a/src/cloudai/reporter.py
+++ b/src/cloudai/reporter.py
@@ -183,13 +183,14 @@ def report_best_dse_config(self):
             best_step_details = tr_root / f"{best_step}" / CommandGenStrategy.TEST_RUN_DUMP_FILE_NAME
             if not best_step_details.is_file():
                 logging.warning("No best step found for %s at %s", tr.name, best_step_details)
-                return
+                continue
+
             with best_step_details.open() as f:
                 try:
                     trd = TestRunDetails.model_validate(toml.load(f))
                 except Exception as exc:
                     logging.warning("Failed to validate test run for %s: %s", tr.name, exc, exc_info=True)
-                    return
+                    continue
 
             best_config_path = tr_root / f"{tr.name}.toml"
             logging.info("Writing best config for %s to %s", tr.name, best_config_path)

From 68c6d358ae531e34e5edd23802d1fe2527448dd2 Mon Sep 17 00:00:00 2001
From: Ivan Podkidyshev <ipodkidyshev@nvidia.com>
Date: Wed, 25 Mar 2026 10:44:02 +0100
Subject: [PATCH 30/30] update docs

---
 README.md               |  7 +++++++
 src/cloudai/reporter.py | 11 ++++++++++-
 tests/test_reporter.py  |  5 -----
 3 files changed, 17 insertions(+), 6 deletions(-)

diff --git a/README.md b/README.md
index 696476457..e7144e4a9 100644
--- a/README.md
+++ b/README.md
@@ -84,6 +84,13 @@ cloudai generate-report\
     --result-dir /path/to/result_directory
 ```
 
+Generated artifacts depend on the scenario contents:
+
+- A plain scenario status report is written as `<scenario>.html`.
+- If the scenario contains DSE test cases, an additional DSE-specific report is written as `<scenario>-dse-report.html`.
+- For DSE runs, the best discovered test configuration is also written as `<dse-case>/<iteration>/<dse-case>.toml`.
+- Custom reporters could generate additional artifacts.
+
 ### install
 This mode installs test prerequisites. For more details, please refer to the [installation guide](https://nvidia.github.io/cloudai/workloads_requirements_installation.html). It automatically runs as part of the `run` mode if prerequisites are not met.
 
diff --git a/src/cloudai/reporter.py b/src/cloudai/reporter.py
index ed64000ee..a897015c3 100644
--- a/src/cloudai/reporter.py
+++ b/src/cloudai/reporter.py
@@ -136,7 +136,15 @@ def print_summary(self) -> None:
 
 
 class DSEReporter(Reporter):
-    """Detailed reports for DSE test cases."""
+    """
+    Generate DSE-specific scenario artifacts.
+
+    For scenarios containing DSE test cases, this reporter produces:
+
+    - a dedicated HTML report at `<results>/<scenario>-dse-report.html`
+    - one best-config TOML per DSE test case iteration at
+      `<results>/<dse-case>/<iteration>/<dse-case>.toml`
+    """
 
     @property
     def templates_dir(self) -> Path:
@@ -168,6 +176,7 @@ def generate(self) -> None:
         logging.info(f"Generated scenario report at {report_path}")
 
     def report_best_dse_config(self):
+        """Persist the highest-reward configuration for each DSE test case iteration."""
         for tr in self.test_scenario.test_runs:
             if not tr.test.is_dse_job:
                 continue
diff --git a/tests/test_reporter.py b/tests/test_reporter.py
index a80bedd5c..95acd8ac9 100644
--- a/tests/test_reporter.py
+++ b/tests/test_reporter.py
@@ -382,11 +382,6 @@ def _write_slurm_system_metadata(step_dir: Path, slurm_metadata: SlurmSystemMeta
         toml.dump(slurm_metadata.model_dump(), f)
 
 
-def _create_non_dse_iteration(case: TestRun, iteration: int, results_root: Path) -> None:
-    iteration_dir = results_root / case.name / str(iteration)
-    iteration_dir.mkdir(parents=True, exist_ok=True)
-
-
 def _create_dse_iteration(
     case: TestRun,
     iteration: int,