v9-06 Baseline Extension 2 — Phase 종합 요약
Source:
report/version9/reporter/v9-06_baseline_ext_2_summary.md
v9-06 Baseline Extension 2 — Phase 종합 요약 보고서
0. Executive Summary
- H9-6a Strict FAIL — Track A (NBEATSx/TSMixer/TiDE) + Track B (SCINet/Pyraformer/Crossformer) 6 모델 모두
PAPE ≤ 43 AND HR@1 ≥ 37양축 gating 미충족. ETSformer 는 TSLib 소스 CUDA device mismatch 로 SKIP (분모 6). - Watch 판정은 정의 종속적 — v9-06 설계 Watch (AND, PAPE ≤ 46 AND HR@1 ≥ 30) 기준 SCINet 단독 PASS (PAPE 42.35 / HR@1 34.48). v9-05 설계 Watch (OR, PAPE ≤ 43 또는 HR@1 ≥ 37) 재판정 시 SCINet (PAPE 단일축) + NBEATSx (PAPE 단일축) 2종 PASS. SCINet 은 두 정의 모두 PASS 하여 robust, NBEATSx 는 v9-05 OR 기준에서만 PASS.
- NBEATSx PAPE 34.58 은 20-모델 중 점추정 1위이나 95% CI [30.71, 38.46] 이 R1b (37.36) 와 N-HiTS (39.26) 을 모두 포함 — 1-sample t-test p ≈ 0.15 (n=15). R1b / N-HiTS 대체·갱신 주장은 통계적으로 불가. "실무 가치 있는 baseline" 수준으로 제한.
- VQ 후보 2종 잠정 선별 (통계 겸손 톤): SCINet (Watch PASS, MSE 1위 0.498, SCI-Block interact 단계 VQ 삽입 후보) + NBEATSx (PAPE 점추정 1위, basis-expansion theta space VQ 매핑). 두 후보 모두 "VQ backbone 확정"이 아닌 "VQ 삽입 실험 진입 자격 최초 획득" 수준.
- v9-05 Critical C1 재발 없음 — Track A
EpochMLflowCallback+ Track B raw loopmlflow.log_metric(step=epoch)으로 per-epoch 로깅 6 모델 전수 검증 완료. CLAUDE.md 규약 충족. - Wall-clock 71.0분 (설계 예산 2-3h 의 59%). Track A NF 3종 모두
max_steps=500한계 도달, early_stop 미 trigger → 수렴 여부 미확인 (P3 후속 sweep 권고). - 사용자 결정 필요 사항 4건: (1) SCINet + NBEATSx VQ 이식 실험 착수 여부·우선순위, (2) ETSformer TSLib 1-line 패치 재시도, (3) Track A max_steps=1000 재실험, (4) Watch 정의 표준화 (v9-05 OR vs v9-06 AND).