콘텐츠로 이동

v9 reporter

v9-06 Baseline Extension 2 — Phase 종합 요약

Source: report/version9/reporter/v9-06_baseline_ext_2_summary.md

v9-06 Baseline Extension 2 — Phase 종합 요약 보고서

0. Executive Summary

  • H9-6a Strict FAIL — Track A (NBEATSx/TSMixer/TiDE) + Track B (SCINet/Pyraformer/Crossformer) 6 모델 모두 PAPE ≤ 43 AND HR@1 ≥ 37 양축 gating 미충족. ETSformer 는 TSLib 소스 CUDA device mismatch 로 SKIP (분모 6).
  • Watch 판정은 정의 종속적 — v9-06 설계 Watch (AND, PAPE ≤ 46 AND HR@1 ≥ 30) 기준 SCINet 단독 PASS (PAPE 42.35 / HR@1 34.48). v9-05 설계 Watch (OR, PAPE ≤ 43 또는 HR@1 ≥ 37) 재판정 시 SCINet (PAPE 단일축) + NBEATSx (PAPE 단일축) 2종 PASS. SCINet 은 두 정의 모두 PASS 하여 robust, NBEATSx 는 v9-05 OR 기준에서만 PASS.
  • NBEATSx PAPE 34.58 은 20-모델 중 점추정 1위이나 95% CI [30.71, 38.46] 이 R1b (37.36) 와 N-HiTS (39.26) 을 모두 포함 — 1-sample t-test p ≈ 0.15 (n=15). R1b / N-HiTS 대체·갱신 주장은 통계적으로 불가. "실무 가치 있는 baseline" 수준으로 제한.
  • VQ 후보 2종 잠정 선별 (통계 겸손 톤): SCINet (Watch PASS, MSE 1위 0.498, SCI-Block interact 단계 VQ 삽입 후보) + NBEATSx (PAPE 점추정 1위, basis-expansion theta space VQ 매핑). 두 후보 모두 "VQ backbone 확정"이 아닌 "VQ 삽입 실험 진입 자격 최초 획득" 수준.
  • v9-05 Critical C1 재발 없음 — Track A EpochMLflowCallback + Track B raw loop mlflow.log_metric(step=epoch) 으로 per-epoch 로깅 6 모델 전수 검증 완료. CLAUDE.md 규약 충족.
  • Wall-clock 71.0분 (설계 예산 2-3h 의 59%). Track A NF 3종 모두 max_steps=500 한계 도달, early_stop 미 trigger → 수렴 여부 미확인 (P3 후속 sweep 권고).
  • 사용자 결정 필요 사항 4건: (1) SCINet + NBEATSx VQ 이식 실험 착수 여부·우선순위, (2) ETSformer TSLib 1-line 패치 재시도, (3) Track A max_steps=1000 재실험, (4) Watch 정의 표준화 (v9-05 OR vs v9-06 AND).

v9-05 Baseline Extension — Phase 종합 요약

Source: report/version9/reporter/v9-05_baseline_ext_summary.md

v9-05 Baseline Extension — Phase 종합 요약

0. Executive Summary

  • H9-5a 판정: FAIL. NeuralForecast 3종 (Autoformer / Informer / FEDformer) 모두 5-apt × 3-seed 평균 기준 PAPE ≤ 43% AND HR@1 ≥ 37% 양축 게이팅을 미충족. 3종 중 상대 최선은 FEDformer (PAPE 52.04, HR@1 27.05, MSE 0.600) 이나 gating 절대 기준에서 각각 −9.04%p / −9.95%p 부족.
  • H9-5b (VQ 후보 존재) 자동 미충족. v10 이후 VQ 재시도를 위한 "DLinear 대체 backbone 후보"는 본 phase 실행 범위(NF 1차 3종) 에서 확보되지 않음.
  • FEDformer × Apt51 단일 가구 HR@1 = 41.90% — NF 3종 내 유일한 HR@1 ≥ 37 임계 초과 조합이나, 동일 가구의 Chronos HR@1=69.04 / B1 HR@1=69.95 대비 −27%p 격차이므로 가구 learnability 신호로 해석. 사전 등록되지 않은 사후 가설 (post-hoc speculation) 로만 기록.
  • Wall-clock: 설계 예산(2–3h) 초과 없음. 전체 45 run 53.8분. 단 per-epoch loss 로깅 부재로 수렴 도달 여부 (early_stop vs max_steps 한계) 는 판별 불가.
  • 사용자 결정 필요 사항 3건 (§8): (1) TSLib 2차 착수 여부, (2) 다음 phase 방향 (A/B/C 중 선택), (3) 후속 phase P1 강제사항 (Lightning callback per-epoch 로깅).

v9-01 Stage 1 HR 민감도 재평가 + v6 Baseline Recap

Source: report/version9/reporter/v9-01_stage1_hr_sensitivity_recap.md

v9-01 Stage 1 — HR 민감도 재평가 + v6 Baseline Recap

§0 요약 (Executive Summary)

v9 phase Stage 1 의 목적은 세 가지였다: (1) H9-1 가설 검증 — v6 Exp6 에서 관찰된 FM (Chronos-Bolt, HR@tol=1 = 37.7%) 의 HR 우위가 허용범위를 ±30분(tol=1)에서 ±1h(tol=2)로 완화할 때 증폭되는지, (2) v6 13 baseline 재현성 확보 — v9 Stage 2 (Chronos LoRA) 비교군 고정, (3) Peak-Weighted Loss 순수 효과 분리 — P1(α=2, β=2) vs P1_MSE_eq(α=2, β=100) 대조로 β 의존성 검증.

결과: H9-1 은 FAIL. tol=1 에서 Chronos-Bolt 가 37.71%로 1위였으나 tol=2 로 완화하면 B1 (DLinear FedAvg) 이 49.39%로 역전한다. FM 계열의 hr_delta(9.96~10.85) 가 DLinear 계열(12.02~12.47) 보다 낮아, FM 의 HR 우위는 증폭이 아니라 약화된다. v6 baseline 은 R1b 포함 전 항목이 ±0.5~2.6%p 범위에서 재현되었으며, 재현 시 FedPM --beta 2.0 override 가 필수임을 확인했다. Peak-Weighted Loss 는 β=100 구간에서 peak weighting α=2 의 효과가 무력화되어 PAPE 가 +5.66%p 악화됨 (42.85 → 48.51) 을 실측으로 입증했다.

v9 Stage 2 (Chronos-Bolt LoRA fine-tuning) 는 설계·구현 준비 완료, exp-expert dispatch 대기 상태이다.