feat: add CSB_SKIP_CONFIRM for unattended benchmark runs

sjarmak · claude · sjarmak · commit 5ae7c7378339 · 2026-03-08T03:47:55.000Z
- Add CSB_SKIP_CONFIRM=1 env var to skip interactive confirmation gates
- Create launch_sonnet46_benchmark.sh for full 275-task runs with both agents
- Regenerate script registry

Co-Authored-By: Claude Opus 4.6 &lt;noreply@anthropic.com&gt;
diff --git a/configs/_common.sh b/configs/_common.sh
@@ -301,7 +301,11 @@ except: print('unknown')
     fi
 
     echo "----------------------------------------------"
-    read -r -p "Press Enter to proceed, Ctrl+C to abort... " _
+    if [ "${CSB_SKIP_CONFIRM:-}" = "1" ]; then
+        echo "[auto] Skipping confirmation (CSB_SKIP_CONFIRM=1)"
+    else
+        read -r -p "Press Enter to proceed, Ctrl+C to abort... " _
+    fi
     echo ""
 }
 
diff --git a/configs/run_selected_tasks.sh b/configs/run_selected_tasks.sh
@@ -496,7 +496,11 @@ fi
 echo "----------------------------------------------"
 echo "Ready to launch $TOTAL_AGENT_RUNS agent runs ($PARALLEL_TASKS parallel)."
 echo ""
-read -r -p "Press Enter to proceed, Ctrl+C to abort... " _
+if [ "${CSB_SKIP_CONFIRM:-}" = "1" ]; then
+    echo "[auto] Skipping confirmation (CSB_SKIP_CONFIRM=1)"
+else
+    read -r -p "Press Enter to proceed, Ctrl+C to abort... " _
+fi
 echo ""
 
 # ============================================
diff --git a/docs/ops/SCRIPT_INDEX.md b/docs/ops/SCRIPT_INDEX.md
@@ -227,6 +227,7 @@ Generated from `scripts/registry.json` by `scripts/generate_script_index.py`.
 - `scripts/integrate_answer_json_wave2.py` - Utility script for integrate answer json wave2.
 - `scripts/integrate_answer_json_wave3.py` - Utility script for integrate answer json wave3.
 - `scripts/judge_demo.py` - Utility script for judge demo.
+- `scripts/launch_sonnet46_benchmark.sh` - Utility script for launch sonnet46 benchmark.
 - `scripts/list_gemini_models.py` - Utility script for list gemini models.
 - `scripts/mirror_largerepo_expansion.sh` - Utility script for mirror largerepo expansion.
 - `scripts/organize_official_by_model.py` - Utility script for organize official by model.
diff --git a/scripts/launch_sonnet46_benchmark.sh b/scripts/launch_sonnet46_benchmark.sh
@@ -0,0 +1,103 @@
+#!/bin/bash
+# Launch full 275-task benchmark with Sonnet 4.6
+#
+# Two sequential runs:
+#   1. Claude Code agent (baseline + MCP pairs)
+#   2. OpenHands agent (baseline + MCP pairs)
+#
+# Each run: 62 task pairs × 2 configs = 124 concurrent Daytona sandboxes
+# Total: 275 tasks × 2 configs × 2 agents = 1100 sandbox launches
+#
+# Usage:
+#   ./scripts/launch_sonnet46_benchmark.sh                    # Both agents
+#   ./scripts/launch_sonnet46_benchmark.sh --claude-only      # Claude Code only
+#   ./scripts/launch_sonnet46_benchmark.sh --openhands-only   # OpenHands only
+#   ./scripts/launch_sonnet46_benchmark.sh --dry-run          # Validate without running
+
+set -e
+
+SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
+REPO_ROOT="$SCRIPT_DIR/.."
+cd "$REPO_ROOT"
+
+# Defaults
+RUN_CLAUDE=true
+RUN_OPENHANDS=true
+DRY_RUN=""
+MODEL="anthropic/claude-sonnet-4-6"
+CATEGORY="staging"
+
+while [[ $# -gt 0 ]]; do
+    case $1 in
+        --claude-only)    RUN_OPENHANDS=false; shift ;;
+        --openhands-only) RUN_CLAUDE=false; shift ;;
+        --dry-run)        DRY_RUN="--dry-run"; shift ;;
+        --category)       CATEGORY="$2"; shift 2 ;;
+        *)                echo "Unknown: $1"; exit 1 ;;
+    esac
+done
+
+# Environment setup
+source .env.local 2>/dev/null || true
+export HARBOR_ENV=daytona
+export DAYTONA_OVERRIDE_STORAGE=10240
+export CSB_SKIP_CONFIRM=1
+
+echo "=============================================="
+echo "CodeScaleBench Full Benchmark — Sonnet 4.6"
+echo "=============================================="
+echo "Model: $MODEL"
+echo "Tasks: 275 (131 SDLC + 144 Org)"
+echo "Configs: baseline-local-direct + mcp-remote-direct"
+echo "Environment: Daytona (62 pairs = 124 concurrent sandboxes)"
+echo "Category: $CATEGORY"
+echo "Claude Code: $RUN_CLAUDE"
+echo "OpenHands: $RUN_OPENHANDS"
+echo "Dry run: ${DRY_RUN:-no}"
+echo ""
+
+# ─────────────────────────────────────────────
+# Run 1: Claude Code
+# ─────────────────────────────────────────────
+if [ "$RUN_CLAUDE" = true ]; then
+    echo "━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━"
+    echo "Phase 1: Claude Code + Sonnet 4.6"
+    echo "━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━"
+
+    bash configs/run_selected_tasks.sh \
+        --model "$MODEL" \
+        --category "$CATEGORY" \
+        --skip-prebuild \
+        $DRY_RUN
+
+    echo ""
+    echo "Claude Code run complete."
+    echo ""
+fi
+
+# ─────────────────────────────────────────────
+# Run 2: OpenHands
+# ─────────────────────────────────────────────
+if [ "$RUN_OPENHANDS" = true ]; then
+    echo "━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━"
+    echo "Phase 2: OpenHands + Sonnet 4.6"
+    echo "━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━"
+
+    if [ -n "$DRY_RUN" ]; then
+        echo "[DRY RUN] Would launch OpenHands with 275 tasks × 2 configs on Daytona"
+        echo "[DRY RUN] Command: bash configs/openhands_2config.sh --model $MODEL --category $CATEGORY"
+    else
+        bash configs/openhands_2config.sh \
+            --model "$MODEL" \
+            --category "$CATEGORY"
+    fi
+
+    echo ""
+    echo "OpenHands run complete."
+    echo ""
+fi
+
+echo "=============================================="
+echo "All benchmark runs finished."
+echo "Results in: runs/$CATEGORY/"
+echo "=============================================="
diff --git a/scripts/registry.json b/scripts/registry.json
@@ -962,6 +962,14 @@
       "language": "python",
       "summary": "Utility script for judge demo."
     },
+    {
+      "name": "launch_sonnet46_benchmark.sh",
+      "path": "scripts/launch_sonnet46_benchmark.sh",
+      "category": "misc",
+      "status": "maintained",
+      "language": "shell",
+      "summary": "Utility script for launch sonnet46 benchmark."
+    },
     {
       "name": "list_gemini_models.py",
       "path": "scripts/list_gemini_models.py",
@@ -1787,7 +1795,7 @@
     "infra_mirrors": 23,
     "library_helpers": 7,
     "migration": 4,
-    "misc": 95,
+    "misc": 96,
     "qa_quality": 10,
     "submission_reporting": 7,
     "task_creation_selection": 13,