Source:
report/version9/exp-expert/v9-06_baseline_ext_2_results.md
v9-06 Baseline Extension 2 결과 보고서 — NF MLP 3종 + TSLib 4종¶
0. Executive Summary¶
v9-06 은 v9-05 (NF Transformer 3종 FAIL) 의 extension 으로, (a) Track A — NeuralForecast MLP 계열 3종 (NBEATSx / TSMixer / TiDE) 과 (b) Track B — TSLib 4종 (SCINet / ETSformer / Pyraformer / Crossformer) 을 EC50 5가구 × 3-seed 독립 학습 조건에서 평가했다. ETSformer 는 TSLib 소스 버그 (CUDA device mismatch) 로 smoke 단계에서 SKIP, 본 실행은 6 모델 로 진행. 본 실행은 완료 상태이며, 본 보고서는 집계·분석만 수행 (재학습 없음).
Watch 기준 정의 변경 경고 (critic Major 1): v9-05 설계서 line 48 의 Watch 는 (PAPE ≤ 43 OR HR@1 ≥ 37) (단일축 OR), v9-06 설계서 §6.1 의 Watch 는 (PAPE ≤ 46 AND HR@1 ≥ 30) (양축 AND, 개별 임계 완화). 두 정의 모두 표시·병기 판정한다 (§4.1.1).
핵심 판정:
- H9-6a (strict, PAPE ≤ 43 AND HR@1 ≥ 37): FAIL — 6 모델 모두 두 축 동시 달성 미충족.
- H9-6a (v9-06 Watch, PAPE ≤ 46 AND HR@1 ≥ 30): SCINet 단독 PASS (PAPE 42.35, HR@1 34.48). Track B 내 유일한 Watch 통과. VQ 후보 1순위 (통계적 겸손 톤 §6).
- H9-6a (v9-05 Watch 병기, PAPE ≤ 43 OR HR@1 ≥ 37, 단일축 OR): SCINet PASS (PAPE 42.35 ≤ 43 AND HR@1 34.48 — OR 의 PAPE 지 절로 통과), NBEATSx PASS (PAPE 34.58 ≤ 43, OR 의 PAPE 지절 통과). 결론이 Watch 정의에 robust.
- H9-6a (단일축 PAPE 점추정): NBEATSx 점추정 1위 (n=15, mean=34.58, 95% CI [30.71, 38.46]). 단 CI 가 R1b 37.36 과 N-HiTS 39.26 을 모두 포함 — 통계적으로 R1b/N-HiTS 대체 주장 불가 (§4.1.3).
- H9-6b (SCINet Track B 내 상대 우위, 분모 ETSformer 제외 Pyraformer/Crossformer 2모델): SUPPORTED — SCINet PAPE 42.35 < Crossformer 44.45 < Pyraformer 47.26; SCINet HR@1 34.48 >> Crossformer 21.24 > Pyraformer 14.86.
- H9-6c (TSLib Transformer variants FAIL 재현): PARTIAL (2/3, ETSformer 미검증) — Pyraformer (PAPE 47.26, HR@1 14.86), Crossformer (PAPE 44.45, HR@1 21.24) FAIL 확인. 가설 원문 분모 3 → 2 로 축소된 denominator manipulation 은 약점. ETSformer 는 TSLib 소스 1-line device fix 를 한 번만 시도 후 SKIP, 재시도 여부는 §9.3 후속 조치로 기록.
| Model | Track | PAPE | HR@1 | HR@2 | MSE | 판정 (v9-06 정의) |
|---|---|---|---|---|---|---|
| NBEATSx | A | 34.58 ± 7.00 | 22.86 ± 5.15 | 32.76 ± 5.47 | 0.671 | 단일축(PAPE) 점추정 1위, CI 중첩 |
| SCINet | B | 42.35 ± 3.38 | 34.48 ± 18.04 | 46.38 ± 18.19 | 0.498 | Watch PASS |
| TSMixer | A | 53.77 | 29.33 | 42.86 | 0.570 | FAIL |
| TiDE | A | 49.49 | 32.19 | 46.00 | 0.549 | FAIL |
| Pyraformer | B | 47.26 | 14.86 | 20.29 | 0.669 | FAIL (H9-6c 지지) |
| Crossformer | B | 44.45 | 21.24 | 34.00 | 0.547 | FAIL (H9-6c 지지) |
1. 실행 요약¶
1.1 조건¶
- 스크립트:
experiments/forecasting/v9_0424_baseline_extension_2.py - MLflow experiment:
v9-baseline-ext-2(id=230168135891700392) - 가구:
GWN_HOUSEHOLDS = [Apt6, Apt15, Apt30, Apt51, Apt88], year=2016 - 시드:
{42, 7, 123}(v9-05 일치) - Track A (NF):
input_size=96, horizon=24, max_steps=500, early_stop_patience_steps=50, val_check_steps=50, lr=1e-3, batch_size=32, scaler_type=standard - Track B (TSLib):
seq_len=96, label_len=48, pred_len=24, features=S, lr=1e-3, batch_size=32, train_epochs=50, patience=5 - TSLib git hash:
4e938a1767106324dd753b2a44832bf870a0252e - 총 run: 6 models × 5 apts × 3 seeds = 90 FINISHED (+1
aggregate_mean= 91 active) - 하드웨어: NVIDIA RTX 5070 Ti (단일 GPU 순차)
- 집계 원천:
outputs/v9_baseline_ext_2/summary.csv(90 records 정상)
1.2 ETSformer SKIP¶
사유: TSLib src/tslib/models/ETSformer.py 소스에서 내부 연산 시 CUDA device mismatch 발생. smoke 단계에서 재현, 본 실행에서 제외. 본 phase 범위는 외부 patch 를 허용하지 않으므로 ETSformer 는 본 보고서에서 배제되며, H9-6c (TSLib Transformer variants FAIL 재현) 는 Pyraformer + Crossformer 2/3 모델로 평가.
약점 자기-인정 (critic Critical 1): engineer 는 smoke 단계에서 TSLib 소스 패치를 한 번만 시도 후 SKIP 했으며, 시도 범위·패치 대상 파일·실패 스택트레이스를 스크립트나 로그에 완전히 기록하지 않았다. 구체적으로, TSLib src/tslib/models/ETSformer_EncDec.py:156 의 index_tuple 텐서를 .to(f.device) 로 이동하는 ≤5 line 패치 는 본 phase 에서 재시도하지 않았다. 설계서 §5.3 smoke 실패 대응 지침 ("해당 모델만 본 phase 제외, 나머지 진행") 에 절차상 부합하나, "1-line fix 가능성을 충분히 소진하지 않고 SKIP" 은 H9-6c 분모 축소 (3 → 2) 의 원인이 된다.
후속 조치 (P2): 차기 phase 에서 TSLib src/tslib/models/ETSformer_EncDec.py:156 의 index_tuple 텐서를 .to(f.device) 로 이동하는 ≤5 line 패치 후 재시도. 성공 시 H9-6c 분모 3 복원. 패치가 실패하면 TSLib ETSformer 구현체 자체가 단일 변수 시계열에 구조적으로 부적합한 증거로 해석 가능.
1.3 재현¶
- 본 보고서의 모든 수치는
outputs/v9_baseline_ext_2/summary.csv에서 직접 계산. - 재현:
uv run python -c "import pandas as pd; df = pd.read_csv('outputs/v9_baseline_ext_2/summary.csv'); print(df.groupby('model')[['mse','pape','hr_tol1','hr_tol2']].mean())".
2. MLflow 로깅 강제 준수 증거 (v9-05 Critical C1 재발 방지)¶
2.0 개요¶
v9-05 reporter §8.3 P1 강제사항 ("다음 phase 스크립트에서 Lightning on_train_epoch_end callback 필수") 에 대해, 본 phase 는 Track A 에 EpochMLflowCallback (pytorch_lightning.Callback 동적 상속) 을 NF trainer_kwargs["callbacks"] 에 주입 하고, Track B 에 raw torch loop 내 매 epoch mlflow.log_metric(..., step=epoch) 을 직접 호출 하는 두 경로로 대응했다 (스크립트 §EpochMLflowCallback, §run_track_b).
2.1 검증 결과 (MlflowClient().get_metric_history(run_id, "train_loss") 길이 확인)¶
Random 5 샘플 (stratified sampling by model):
| run_name | train_loss n | val_loss n | run_id prefix | 결과 |
|---|---|---|---|---|
| A_NBEATSx_Apt51_seed7 | 500 | 11 | 61fdc871 |
OK |
| B_Crossformer_Apt6_seed42 | 11 | 11 | 74cf0cd7 |
OK |
| B_Crossformer_Apt15_seed123 | 7 | 7 | 5abe7db1 |
OK |
| B_SCINet_Apt88_seed7 | 26 | 26 | c88b1f95 |
OK |
| B_SCINet_Apt51_seed123 | 17 | 17 | ed4d763d |
OK |
모델별 1 샘플 (6 모델 전수 커버):
| model | train_loss n | val_loss n | run 예시 | 결과 |
|---|---|---|---|---|
| Crossformer | 14 | 14 | B_Crossformer_Apt88_seed123 | OK |
| NBEATSx | 500 | 11 | A_NBEATSx_Apt88_seed123 | OK |
| Pyraformer | 18 | 18 | B_Pyraformer_Apt88_seed123 | OK |
| SCINet | 12 | 12 | B_SCINet_Apt88_seed123 | OK |
| TSMixer | 500 | 11 | A_TSMixer_Apt88_seed123 | OK |
| TiDE | 500 | 11 | A_TiDE_Apt88_seed123 | OK |
해석:
- Track A (NF/Lightning):
train_loss가 step=500 까지 기록됨. 이는 NF 의 내부 Lightning trainer 가max_steps=500한계까지 학습한 경우로, callback 이 매 training step 마다 (on_train_epoch_end가 Lightning 에서 mini-batch 단위 한 step 을 하나의 epoch 로 간주) trigger 된 결과.val_loss는val_check_steps=50기준으로 ~10회 (step 50 / 100 / ... / 500) 기록. NBEATSx/TSMixer/TiDE 6 샘플 모두 500 training records → 3 Track A 모델 모두 max_steps 한계까지 학습, early_stop 미 trigger. 이는 추가max_stepssweep 가치를 시사하나 본 phase 범위 외. - Track B (TSLib):
train_loss/val_loss모두 epoch 단위 일치 (SCINet 12–26, Crossformer 7–14, Pyraformer 18). 각 run 의n값이 서로 다르다는 것은 early_stop (patience=5) 이 정상 작동 했음을 확인해 준다 (train_epochs=50 미만 종료). - CLAUDE.md "Training loss → mlflow.log_metric(step=) per epoch/round" 규약 충족. v9-05 Critical C1 재발 없음.
2.2 MLflow 전체 상태¶
| 카테고리 | 개수 |
|---|---|
| Active FINISHED (Track A: NBEATSx/TSMixer/TiDE × 15 each) | 45 |
| Active FINISHED (Track B: SCINet/Pyraformer/Crossformer × 15 each) | 45 |
| Active FINISHED (aggregate_mean) | 1 |
| 소계 (active) | 91 |
| Deleted (smoke 및 실패 run tombstone) | 10 |
| 전체 (ALL) | 101 |
본 exp-expert 세션은 추가 삭제/수정 조작을 수행하지 않았다.
3. 집계 테이블¶
3.1 Table A — model × apt (3-seed mean ± std)¶
전 7 metrics. 공간 제약으로 본문엔 PAPE / HR@1 / HR@2 / MSE 를 기재. MAE/MAPE/sMAPE 는 outputs/v9_baseline_ext_2/summary.csv 참조.
PAPE (%) — lower is better
| Model | Apt6 | Apt15 | Apt30 | Apt51 | Apt88 |
|---|---|---|---|---|---|
| NBEATSx | 32.92 ± 1.11 | 28.23 ± 0.47 | 33.63 ± 1.11 | 47.51 ± 0.32 | 30.64 ± 0.27 |
| TSMixer | 52.18 ± 0.62 | 43.74 ± 0.49 | 55.41 ± 0.15 | 59.44 ± 1.17 | 58.07 ± 0.51 |
| TiDE | 44.70 ± 0.04 | 39.20 ± 0.12 | 53.33 ± 0.18 | 56.19 ± 0.19 | 54.04 ± 0.37 |
| SCINet | 39.88 ± 0.72 | 37.88 ± 0.98 | 46.53 ± 1.36 | 43.14 ± 2.03 | 44.32 ± 0.67 |
| Pyraformer | 47.46 ± 3.08 | 34.87 ± 1.68 | 48.70 ± 8.91 | 52.51 ± 4.57 | 52.78 ± 4.05 |
| Crossformer | 35.19 ± 2.85 | 39.41 ± 2.06 | 48.12 ± 7.12 | 50.72 ± 5.59 | 48.79 ± 3.55 |
HR@tol=1 (%) — higher is better
| Model | Apt6 | Apt15 | Apt30 | Apt51 | Apt88 |
|---|---|---|---|---|---|
| NBEATSx | 20.00 ± 4.29 | 19.05 ± 4.36 | 27.14 ± 4.29 | 28.10 ± 0.82 | 20.00 ± 3.78 |
| TSMixer | 22.86 ± 1.43 | 25.24 ± 0.82 | 26.19 ± 2.18 | 52.86 ± 6.23 | 19.52 ± 2.18 |
| TiDE | 23.33 ± 2.97 | 25.71 ± 1.43 | 35.24 ± 0.82 | 52.86 ± 2.47 | 23.81 ± 2.18 |
| SCINet | 20.48 ± 2.18 | 25.71 ± 2.47 | 31.43 ± 10.30 | 67.62 ± 1.65 | 27.14 ± 2.86 |
| Pyraformer | 13.33 ± 12.32 | 15.71 ± 3.78 | 16.19 ± 11.64 | 9.52 ± 9.29 | 19.52 ± 10.33 |
| Crossformer | 23.33 ± 2.18 | 12.86 ± 6.55 | 7.62 ± 7.05 | 44.29 ± 16.84 | 18.10 ± 11.10 |
HR@tol=2 (%)
| Model | Apt6 | Apt15 | Apt30 | Apt51 | Apt88 |
|---|---|---|---|---|---|
| NBEATSx | 30.00 ± 4.29 | 29.05 ± 2.18 | 39.05 ± 4.36 | 35.71 ± 2.97 | 30.00 ± 1.43 |
| TSMixer | 35.24 ± 4.77 | 37.14 ± 5.15 | 43.81 ± 4.36 | 72.38 ± 7.19 | 25.71 ± 2.97 |
| TiDE | 38.57 ± 1.43 | 38.10 ± 2.18 | 48.57 ± 5.15 | 75.24 ± 1.65 | 29.52 ± 3.60 |
| SCINet | 36.19 ± 0.82 | 38.57 ± 3.60 | 47.14 ± 3.60 | 79.52 ± 1.65 | 30.48 ± 2.97 |
| Pyraformer | 17.62 ± 16.39 | 22.38 ± 5.77 | 20.00 ± 13.95 | 12.86 ± 10.87 | 28.10 ± 15.00 |
| Crossformer | 35.24 ± 4.36 | 26.19 ± 10.14 | 14.29 ± 11.26 | 66.19 ± 12.40 | 27.62 ± 9.88 |
MSE — lower is better
| Model | Apt6 | Apt15 | Apt30 | Apt51 | Apt88 |
|---|---|---|---|---|---|
| NBEATSx | 0.992 | 0.201 | 0.114 | 0.808 | 1.241 |
| TSMixer | 0.835 | 0.165 | 0.093 | 0.738 | 1.017 |
| TiDE | 0.804 | 0.164 | 0.089 | 0.701 | 0.987 |
| SCINet | 0.732 | 0.157 | 0.084 | 0.618 | 0.897 |
| Pyraformer | 1.022 | 0.232 | 0.101 | 0.935 | 1.055 |
| Crossformer | 0.774 | 0.170 | 0.094 | 0.735 | 0.960 |
3.2 Table B — model-level 5-apt × 3-seed overall (n=15 per model)¶
| Model | Track | MSE | MAE | MAPE (%) | sMAPE (%) | PAPE (%) | HR@1 (%) | HR@2 (%) |
|---|---|---|---|---|---|---|---|---|
| NBEATSx | A | 0.671 ± 0.458 | 0.543 ± 0.229 | 71.03 ± 9.60 | 49.01 ± 6.55 | 34.58 ± 7.00 | 22.86 ± 5.15 | 32.76 ± 5.47 |
| TSMixer | A | 0.570 ± 0.385 | 0.470 ± 0.193 | 56.35 ± 5.71 | 40.39 ± 2.92 | 53.77 ± 5.82 | 29.33 ± 12.70 | 42.86 ± 16.94 |
| TiDE | A | 0.549 ± 0.370 | 0.466 ± 0.189 | 55.72 ± 4.81 | 40.49 ± 3.40 | 49.49 ± 6.70 | 32.19 ± 11.73 | 46.00 ± 16.57 |
| SCINet | B | 0.498 ± 0.333 | 0.471 ± 0.194 | 69.11 ± 6.91 | 42.21 ± 4.27 | 42.35 ± 3.38 | 34.48 ± 18.04 | 46.38 ± 18.19 |
| Pyraformer | B | 0.669 ± 0.434 | 0.573 ± 0.234 | 88.57 ± 18.38 | 49.21 ± 6.11 | 47.26 ± 8.01 | 14.86 ± 9.08 | 20.29 ± 12.44 |
| Crossformer | B | 0.547 ± 0.361 | 0.501 ± 0.201 | 73.53 ± 7.53 | 44.67 ± 4.79 | 44.45 ± 7.38 | 21.24 ± 15.61 | 34.00 ± 19.98 |
주: ± 는 n=15 sample std. 가구 간 편차 (5-apt 간 spread) 가 dominant 하여 값이 크다. apt 내 3-seed std 는 §3.3 참조.
3.3 3-seed 편차 (같은 apt × 모델 내)¶
PAPE seed std (apt-wise 평균):
| Model | Apt6 | Apt15 | Apt30 | Apt51 | Apt88 | apt-wise mean |
|---|---|---|---|---|---|---|
| NBEATSx | 1.11 | 0.47 | 1.11 | 0.32 | 0.27 | 0.66 |
| TSMixer | 0.62 | 0.49 | 0.15 | 1.17 | 0.51 | 0.59 |
| TiDE | 0.04 | 0.12 | 0.18 | 0.19 | 0.37 | 0.18 |
| SCINet | 0.72 | 0.98 | 1.36 | 2.03 | 0.67 | 1.15 |
| Pyraformer | 3.08 | 1.68 | 8.91 | 4.57 | 4.05 | 4.46 |
| Crossformer | 2.85 | 2.06 | 7.12 | 5.59 | 3.55 | 4.24 |
- Track A 3종 모두 seed std < 1%p — 재현성 우수.
- SCINet seed std 1.15%p — Track B 내 최소, 재현성 안정.
- Pyraformer / Crossformer seed std 4%p+ — 설계서 R6 (raw torch loop 의 seed 비결정성) 경고가 실현됨. Track B attention variant 모델의 seed 비대칭이 Track A 대비 ~6× 로 확장.
4. H9-6a / H9-6b / H9-6c Gating 판정¶
Watch 기준 정의 변경 경고 (critic Major 1, 사후성 의혹): v9-06 설계서 §6.1 은 Watch 를 (PAPE ≤ 46 AND HR@1 ≥ 30) 으로 정의하며, 이는 v9-05 설계서 line 48 의 Watch 정의 (PAPE ≤ 43 OR HR@1 ≥ 37) 과 다음 세 점에서 다르다: (1) 조건 결합자 OR → AND, (2) PAPE 임계 43 → 46 완화, (3) HR@1 임계 37 → 30 완화. v9-05 결과 (NF Transformer 3종 전수 FAIL) 관찰 후 v9-06 설계 단계에서 이 정의 변경이 이루어졌고, SCINet 이 PAPE 42.35 / HR@1 34.48 로 "v9-05 Watch OR 와 v9-06 Watch AND 를 모두 통과" 하는 값을 내었다.
임계값 46 / 30 의 정량적 근거는 본 보고서와 설계서 모두에서 명시되지 않는다. 따라서 SCINet 결과가 관측된 후 설계 단계 OR/AND 선택이 사후적 정합화 의혹을 완전히 배제할 수 없음 을 기록한다 (§9.2 재인용). 완화 조치로 두 Watch 정의 모두로 재판정 하며 결론이 정의에 robust 함을 제시한다.
4.1 H9-6a (Pass/Watch/Fail 3-tier)¶
기준: 5-apt × 3-seed mean (n=15 per model).
4.1.1 v9-06 설계 Watch 정의 (AND 기준, 완화 임계)¶
| Model | Track | PAPE | HR@1 | seed std (PAPE) | Strict (PAPE≤43 & HR@1≥37) | v9-06 Watch (PAPE≤46 & HR@1≥30) |
|---|---|---|---|---|---|---|
| NBEATSx | A | 34.58 | 22.86 | 0.66 | FAIL (HR@1 −14.14%p) | FAIL (HR@1 −7.14%p) |
| TSMixer | A | 53.77 | 29.33 | 0.59 | FAIL | FAIL |
| TiDE | A | 49.49 | 32.19 | 0.18 | FAIL | FAIL (PAPE +3.49) |
| SCINet | B | 42.35 | 34.48 | 1.15 | FAIL (HR@1 −2.52%p) | PASS |
| Pyraformer | B | 47.26 | 14.86 | 4.46 | FAIL | FAIL |
| Crossformer | B | 44.45 | 21.24 | 4.24 | FAIL | FAIL |
4.1.2 v9-05 설계 Watch 정의 병기 (OR 기준, 엄격 임계 — 사후성 의혹 해소)¶
v9-05 Watch = (PAPE ≤ 43 OR HR@1 ≥ 37, 단일축 통과).
| Model | PAPE ≤ 43? | HR@1 ≥ 37? | v9-05 Watch (OR) 판정 |
|---|---|---|---|
| NBEATSx | YES (34.58) | NO (22.86) | PASS (PAPE 단일축) |
| TSMixer | NO (53.77) | NO | FAIL |
| TiDE | NO (49.49) | NO | FAIL |
| SCINet | YES (42.35) | NO (34.48) | PASS (PAPE 단일축) |
| Pyraformer | NO | NO | FAIL |
| Crossformer | NO (44.45) | NO | FAIL (PAPE +1.45%p, HR@1 −2.52%p — nuance §4.1.5) |
v9-05 Watch 기준 결과: SCINet / NBEATSx 2개 모델이 PAPE 단일축으로 PASS. v9-06 Watch 와 결론 비교:
| Model | v9-06 Watch (AND) | v9-05 Watch (OR) | 결론 robustness |
|---|---|---|---|
| SCINet | PASS | PASS | 두 정의 모두 PASS |
| NBEATSx | FAIL | PASS (PAPE 단일축) | v9-05 기준에서 추가 PASS |
SCINet 은 v9-05 / v9-06 Watch 정의 모두로 PASS 하여, Watch 정의 선택에 결론이 robust. NBEATSx 는 v9-05 기준 Watch (OR) 로는 PAPE 단일축 PASS. 사후성 의혹 (§4 상단) 이 완전 해소되지는 않으나, 결론이 임계 정의 하에서 적어도 SCINet 판정에 대해 일관됨을 확인한다.
4.1.3 NBEATSx PAPE 점추정 1위의 통계적 유의성 (critic Major 2)¶
NBEATSx PAPE n=15 mean = 34.58, sample std = 7.00, SE = 7.00 / √15 = 1.81. 95% CI = [30.71, 38.46] (t-분포 df=14 기준).
| 참조 모델 | PAPE | NBEATSx 95% CI [30.71, 38.46] 포함 여부 |
|---|---|---|
| R1b (FedPM+DLinear) | 37.36 | 포함 |
| N-HiTS (v6) | 39.26 | 미포함 (CI 상한 +0.80%p) |
| NBEATSx seed=42 단일 | 34.53 | 포함 |
1-sample t-test (H0: NBEATSx PAPE mean = 37.36, 대립가설: NBEATSx < 37.36):
- n=15 전체: t = (34.58 − 37.36) / (7.00 / √15) = −1.54, p ≈ 0.15 (one-sided).
- seed=42 subset (n=5): t = (34.53 − 37.36) / (std_seed42 / √5). seed=42 PAPE 가 apt-wise 로 32.87 / 27.89 / 33.38 / 47.82 / 30.69, mean=34.53, std=7.57 → t = −0.83, p ≈ 0.44 (one-sided).
결론: NBEATSx 의 PAPE 축 점추정 1위 (34.58) 는 R1b (37.36) 와 95% CI 중첩 및 p ≥ 0.15 로 통계적 우위를 주장할 수 없다. 95% CI 는 N-HiTS (39.26) 조차 상한 +0.80%p 로 근접해 포함 경계. 본 보고서의 표현은 "실무 가치 있는 baseline" 수준으로 제한하며, R1b / N-HiTS 를 "대체" 하거나 "갱신" 한다는 주장은 금지. 표현 교정:
- 기존 표현 "R1b (37.36) / N-HiTS (39.26) 를 갱신해 전 v6/v9 benchmark 20 모델 중 PAPE 1위" → 수정 표현 "점추정 기준 20-모델 중 1위 (n=15, mean=34.58, 95% CI [30.71, 38.46]); 단 CI 가 R1b (37.36) / N-HiTS (39.26) 모두 포함하여 통계적 구별 불가".
- §5.2 랭킹표 각주 및 §9.3 한계 섹션에도 동일 교정 반영.
4.1.4 판정 요약¶
- H9-6a (Strict): FAIL — 6 모델 전원 두 축 동시 충족 불가.
- H9-6a (v9-06 Watch, AND): SCINet 단독 PASS (PAPE 42.35 ≤ 46 AND HR@1 34.48 ≥ 30). seed std 1.15%p 로 Watch 안정 기준 (< 2.00%p) 충족.
- H9-6a (v9-05 Watch, OR, 병기): SCINet / NBEATSx 2개 PASS (둘 다 PAPE 단일축).
- 단일축 PAPE 점추정: NBEATSx 34.58 (20모델 1위, 95% CI [30.71, 38.46] R1b·N-HiTS 포함 — 통계 비유의).
- Track 분리 판정: Track A Watch PASS 0 (v9-06 AND), Track B Watch PASS 1 (SCINet).
4.1.5 Crossformer PAPE nuance (critic Minor)¶
Crossformer PAPE = 44.45, v9-05 Watch OR 정의에서 PAPE ≤ 43 조건에는 미달 (+1.45%p), HR@1 축은 21.24 < 37 로 미달. 단 PAPE 차이 1.45%p 는 apt-wise seed std 2.06–7.12%p 범위 내이며, 5-apt 평균 seed std 4.24%p 와 비교해도 noise 범위. 즉 Crossformer 는 v9-05 Watch 단일축 PAPE 기준에 "근접 FAIL" (boundary) 로, 3-seed 확대 시 변동 가능. 본 보고서는 현 n=15 기준으로 FAIL 판정하되, 절대적 gating 이 아닌 경계선임을 기록.
4.2 H9-6b (SCINet Track B 내 상대 우위, 분모 ETSformer 제외)¶
설계서 §6.2 원문 기준은 ETSformer / Pyraformer / Crossformer 3종 (Track B 4 − SCINet) 대비 SCINet 상대 우위. ETSformer SKIP (critic Minor) 으로 분모가 3 → 2 (Pyraformer, Crossformer) 로 축소 됨을 명시. 본 판정은 2개 비교 모델만으로 도출된 부분 근거이며, ETSformer 패치 재시도 시 결과 변동 가능.
| Metric | SCINet | Pyraformer | Crossformer | SCINet 상대 우위 |
|---|---|---|---|---|
| PAPE (lower) | 42.35 | 47.26 | 44.45 | OK (min=44.45 보다 −2.10%p) |
| HR@1 (higher) | 34.48 | 14.86 | 21.24 | OK (max=21.24 보다 +13.24%p) |
| HR@2 (higher) | 46.38 | 20.29 | 34.00 | OK (max=34.00 보다 +12.38%p) |
| MSE (lower) | 0.498 | 0.669 | 0.547 | OK |
H9-6b 판정: SUPPORTED (분모 ETSformer 제외 2모델). SCINet 이 Pyraformer/Crossformer 2모델 대비 전 4축 최선. 설계서 §1.3 가설 ("SCINet 의 SCI-Block binary tree 가 N-HiTS hierarchical interpolation 과 동류, 나머지 attention 계열 대비 peak 축 상대 우위") 수치적 근거 확보. 절대 gating 은 v9-06 Watch 수준으로 통과 (§4.1). ETSformer 가 포함되었더라도 결과가 유지될지는 §9.3 후속 패치 재시도로 확인 필요.
4.3 H9-6c (TSLib Transformer variants FAIL 재현) — PARTIAL¶
원문 가설 (설계서 §1.3 및 §6.3): "ETSformer / Pyraformer / Crossformer 3종 모두 FAIL 재현". 즉 분모 3 이 원칙.
본 실행 현실: ETSformer SKIP 으로 분모 2 (Pyraformer + Crossformer) 만 평가. 원문 분모 3 → 실효 분모 2 로 축소된 상태에서 판정 (critic Critical 1: denominator manipulation).
| Model | PAPE | HR@1 | (PAPE>43 OR HR@1<37)? |
|---|---|---|---|
| Pyraformer | 47.26 | 14.86 | YES (양축 FAIL) |
| Crossformer | 44.45 | 21.24 | YES (양축 FAIL) |
| ETSformer | — | — | 미검증 (SKIP) |
H9-6c 판정: PARTIAL (2/3, ETSformer 미검증). 기존 "SUPPORTED (2/2)" 표기는 critic Critical 1 에 따라 취소. Pyraformer (pyramidal attention), Crossformer (cross-dim attention) 은 v9-05 Autoformer/Informer/FEDformer 의 FAIL 패턴 (PAPE 50+, HR@1 < 30) 과 동질 (단 Crossformer PAPE 44.45 는 v9-05 3종보다 ~8%p 낮음). 그러나 ETSformer 결과 없이 원문 가설의 완전 지지는 불가능 하며, 판정은 잠정적 PARTIAL 수준이다. ETSformer 가 "ETS decomposition + attention" 카테고리 특성상 FAIL 할 것이 priorly 예상되나 (설계서 §2.2.2 "강한 FAIL 예상"), 수치 미확인 상태에서 가설 결론을 내릴 수 없다.
약점 자기-인정: ETSformer SKIP 이 "smoke 실패 대응" 절차에 부합하나 (§1.2), TSLib ETSformer_EncDec.py:156 의 1-line device fix 를 충분히 시도하지 않은 상태에서 분모 축소가 이루어졌다. 본 보고서는 이 점을 한계로 기록하며, §9.3 P2 후속 조치로 "차기 phase 에서 1-line 패치 후 재시도" 를 명시한다.
v9-05 와의 비교:
| Source | Model | Category | PAPE | HR@1 |
|---|---|---|---|---|
| v9-05 | Autoformer | MovingAvg decomp | 52.91 | 15.33 |
| v9-05 | Informer | ProbSparse distil | 53.40 | 20.67 |
| v9-05 | FEDformer | Fourier top-k | 52.04 | 27.05 |
| v9-06 | Pyraformer | Pyramidal attn | 47.26 | 14.86 |
| v9-06 | Crossformer | Cross-dim attn | 44.45 | 21.24 |
TSLib 2차 4종 중 평가된 2종은 v9-05 NF 3종과 동일 "attention + smoothing" 실패 카테고리. 평가 가능 모델 기준 누적 5/6 (v9-05 Autoformer/Informer/FEDformer 3종 + v9-06 Pyraformer/Crossformer 2종) 가 FAIL, ETSformer 1종은 미검증. 이는 "decomposition + attention 계열이 household-level peak 축에서 structurally handicapped" 가설 (v9-05 §8.1 관찰 1) 의 외부 validation 부분 지지 에 해당. "누적 5/5 FAIL" 표현은 ETSformer 미검증을 반영해 "평가된 5/5 FAIL + ETSformer 미검증 1건" 으로 수정. "ablation 미수행" 한정 조건은 유지 (v9-05 revision 1 가설 수준 표기 일관).
5. v9-01 / v6 / v9-05 전 baseline 병합 비교 (20 모델)¶
5.1 20-모델 종합 테이블¶
| Source | Model | n_runs | seeds | MSE | MAPE | PAPE | HR@1 | HR@2 |
|---|---|---|---|---|---|---|---|---|
| v9-06 | NBEATSx | 15 | {42,7,123} | 0.671 | 71.03 | 34.58 | 22.86 | 32.76 |
| v9-06 | TSMixer | 15 | {42,7,123} | 0.570 | 56.35 | 53.77 | 29.33 | 42.86 |
| v9-06 | TiDE | 15 | {42,7,123} | 0.549 | 55.72 | 49.49 | 32.19 | 46.00 |
| v9-06 | SCINet | 15 | {42,7,123} | 0.498 | 69.11 | 42.35 | 34.48 | 46.38 |
| v9-06 | Pyraformer | 15 | {42,7,123} | 0.669 | 88.57 | 47.26 | 14.86 | 20.29 |
| v9-06 | Crossformer | 15 | {42,7,123} | 0.547 | 73.53 | 44.45 | 21.24 | 34.00 |
| v9-05 | Autoformer | 15 | {42,7,123} | 0.660 | 67.24 | 52.91 | 15.33 | 23.52 |
| v9-05 | Informer | 15 | {42,7,123} | 0.648 | 56.74 | 53.40 | 20.67 | 32.48 |
| v9-05 | FEDformer | 15 | {42,7,123} | 0.600 | 65.07 | 52.04 | 27.05 | 40.29 |
| v9-01/v6 | Chronos-Bolt (ZS) | 5 | {42} | 0.555 | 55.11 | 44.98 | 37.71 | 48.56 |
| v9-01/v6 | TimeMoE-50M | 5 | {42} | 0.549 | 66.31 | 43.38 | 32.93 | 42.88 |
| v9-01/v6 | moirai | 5 | {42} | 0.641 | 56.50 | 46.61 | 17.73 | 27.86 |
| v9-01/v6 | PatchTST | 5 | {42} | 0.572 | 58.80 | 48.41 | 21.14 | 30.00 |
| v9-01/v6 | iTransformer | 5 | {42} | 0.593 | 59.04 | 51.00 | 19.43 | 27.14 |
| v9-01/v6 | TimesNet | 5 | {42} | 0.594 | 56.91 | 48.90 | 26.57 | 38.29 |
| v9-01/v6 | NHITS | 5 | {42} | 0.648 | 67.04 | 39.26 | 22.29 | 31.71 |
| v9-01/v6 | TFT | 5 | {42} | 0.719 | 63.59 | 50.58 | 15.14 | 25.14 |
| v9-01/v6 | B0 (DLinear Local) | 5 | {42} | 0.515 | 68.75 | 42.51 | 34.58 | 46.60 |
| v9-01/v6 | B1 (DLinear FedAvg) | 5 | {42} | 0.505 | 68.67 | 43.64 | 36.92 | 49.39 |
| v9-01/v6 | R1b (FedPM+DLinear) | 5 | {42} | 0.629 | 78.43 | 37.36 | 21.27 | 32.42 |
Seed 비대칭 경고: v9-05 / v9-06 은 n=15 (5-apt × 3-seed); v9-01/v6 는 n=5 (5-apt × seed=42 단일). 순위 robustness 는 §5.3 seed=42 subset 으로 교차 확인.
5.2 순위¶
PAPE (lower is better, 20 모델):
| 순위 | Model | PAPE | 근거 |
|---|---|---|---|
| 1 | NBEATSx (v9-06 ★) | 34.58 | 점추정 1위 (n=15, 95% CI [30.71, 38.46]) — R1b·N-HiTS 와 통계적 구별 불가 (§4.1.3) |
| 2 | R1b | 37.36 | NBEATSx CI 에 포함 |
| 3 | NHITS | 39.26 | NBEATSx CI 상한 +0.80%p |
| 4 | SCINet (v9-06 ★) | 42.35 | Track B Watch PASS |
| 5 | B0 | 42.51 | |
| 6 | TimeMoE-50M | 43.38 | |
| 7 | B1 | 43.64 | |
| 8 | Crossformer (v9-06 ★) | 44.45 | |
| 9 | Chronos-Bolt | 44.98 | |
| 10 | moirai | 46.61 | |
| 11 | Pyraformer (v9-06 ★) | 47.26 | |
| 12 | PatchTST | 48.41 | |
| 13 | TimesNet | 48.90 | |
| 14 | TiDE (v9-06 ★) | 49.49 | |
| 15 | TFT | 50.58 | |
| 16 | iTransformer | 51.00 | |
| 17 | FEDformer (v9-05) | 52.04 | |
| 18 | Autoformer (v9-05) | 52.91 | |
| 19 | Informer (v9-05) | 53.40 | |
| 20 | TSMixer (v9-06 ★) | 53.77 |
HR@1 (higher is better, 20 모델):
| 순위 | Model | HR@1 | 근거 |
|---|---|---|---|
| 1 | Chronos-Bolt | 37.71 | zero-shot FM |
| 2 | B1 | 36.92 | |
| 3 | B0 | 34.58 | |
| 4 | SCINet (v9-06 ★) | 34.48 | Track B Watch |
| 5 | TimeMoE-50M | 32.93 | |
| 6 | TiDE (v9-06 ★) | 32.19 | |
| 7 | TSMixer (v9-06 ★) | 29.33 | |
| 8 | FEDformer (v9-05) | 27.05 | |
| 9 | TimesNet | 26.57 | |
| 10 | NBEATSx (v9-06 ★) | 22.86 | |
| 11 | NHITS | 22.29 | |
| 12 | R1b | 21.27 | |
| 13 | Crossformer (v9-06 ★) | 21.24 | |
| 14 | PatchTST | 21.14 | |
| 15 | Informer (v9-05) | 20.67 | |
| 16 | iTransformer | 19.43 | |
| 17 | moirai | 17.73 | |
| 18 | Autoformer (v9-05) | 15.33 | |
| 19 | TFT | 15.14 | |
| 20 | Pyraformer (v9-06 ★) | 14.86 |
5.3 seed=42 단일 보조 비교 (순위 robustness 확인)¶
summary.csv 에서 seed == 42 행만 필터링 (n=5 per model):
| Model | seed=42 PAPE | 3-seed PAPE | Δ | seed=42 HR@1 | 3-seed HR@1 | Δ |
|---|---|---|---|---|---|---|
| NBEATSx | 34.53 | 34.58 | +0.05 | 21.14 | 22.86 | +1.71 |
| TSMixer | 53.90 | 53.77 | −0.13 | 31.43 | 29.33 | −2.10 |
| TiDE | 49.43 | 49.49 | +0.06 | 31.71 | 32.19 | +0.48 |
| SCINet | 42.64 | 42.35 | −0.29 | 34.86 | 34.48 | −0.38 |
| Pyraformer | 48.49 | 47.26 | −1.22 | 10.57 | 14.86 | +4.29 |
| Crossformer | 44.87 | 44.45 | −0.43 | 17.43 | 21.24 | +3.81 |
해석:
- Track A (NF 3종) seed=42 subset vs 3-seed mean 격차: PAPE ≤ 0.13%p, HR@1 ≤ 2.10%p. 순위 robustness 확보.
- NBEATSx seed=42 PAPE 34.53 → 점추정 1위 결과가 seed=42 단일로도 유지 (v9-01/v6 baseline 과의 seed 비대칭 argument 에 robust). 단 seed=42 단일 n=5 의 1-sample t-test p ≈ 0.44 (§4.1.3) 로 통계 비유의성은 seed=42 기준에서 더 약함. "R1b / N-HiTS 갱신" 표현은 금지, 점추정 기준 일관성만 기록.
- SCINet seed=42 subset: PAPE 42.64, HR@1 34.86 → Watch 판정 (PAPE≤46 AND HR@1≥30) seed=42 단일로도 유지.
- Track B attention variant (Pyraformer/Crossformer) 은 seed=42 → 3-seed 로 가면서 HR@1 이 +3.8 ~ +4.3%p 상승 — raw torch loop 의 seed 비대칭 (§3.3) 이 여기서 관찰됨. 단 Pass 임계 (HR@1≥37) 에 도달하지 못해 판정은 불변.
6. VQ 후보 선별 (설계서 §6.2)¶
H9-6a Strict FAIL, v9-06 Watch AND 1개 (SCINet), 단일축 PAPE 점추정 1위 (NBEATSx, 통계 비유의). 두 모델의 VQ 삽입점 설계-수준 논거를 기록한다. ADR-009 archive 교훈 (VQ 삽입 시 정확도 하락 위험) 을 반영하여 현실적 제약을 동반한다.
통계적 겸손 톤 경고: NBEATSx 의 PAPE 1위 는 점추정 기준이며 R1b/N-HiTS 와 통계적 우위가 없음 (§4.1.3). SCINet 의 Watch PASS 는 v9-06 정의 기준이며, HR@1 34.48 은 gating 37 에 −2.52%p 미달. 두 후보 모두 "VQ backbone 확정" 이 아니라 "VQ 삽입 실험 진입 자격 최초 획득" 수준.
6.1 VQ 후보 1순위 — SCINet (Watch PASS, Track B 유일)¶
선정 근거:
- 절대 Watch 통과: PAPE 42.35 (≤ 46) AND HR@1 34.48 (≥ 30). Track B 4종 (ETSformer 제외 3종 평가) 중 유일.
- MSE 1위 (0.498): 20 모델 중 B1 (0.505) 을 제치고 최소.
- Apt51 HR 특이값 주의 — cherry-picking 교정 (critic Major 3): SCINet×Apt51 HR@1 = 67.62% (3-seed mean) 는 "hierarchical down-up sampling 구조와 주기성 정합" 구조 해석으로 귀속할 수 없다. 본 보고서 표 3.1 의 다른 비-hierarchical 모델 Apt51 HR@1 수치가 반증:
- TSMixer×Apt51 HR@1 = 52.86 (all-MLP, non-hierarchical)
- TiDE×Apt51 HR@1 = 52.86 (dense encoder, non-hierarchical)
- Crossformer×Apt51 HR@1 = 44.29 (cross-dim attention, non-hierarchical)
- Chronos zero-shot Apt51 HR@1 = 69.04 / B1 = 69.95 (별도 원천)
전 6 모델 Apt51 HR@1 평균 (NBEATSx 28.10 / TSMixer 52.86 / TiDE 52.86 / SCINet 67.62 / Pyraformer 9.52 / Crossformer 44.29) = 42.54, 5-apt 전체 HR@1 mean (26.46) 대비 +16.08%p spike. Pyraformer 만 Apt51 HR@1 9.52 (역방향 이상값). Apt51 자체가 전 모델에게 "쉬운 가구" 라는 해석이 데이터 특성에 부합 하며, SCINet 의 Apt51 강점은 "가구 특성 × 모델 일반 성능" 의 교호 효과로 해석 가능. 단 SCINet Apt51 67.62 는 Chronos/B1 에 근접하는 상대 최고치이므로 SCINet 의 Apt51 특화 효과가 부가적으로 존재할 여지는 있으나, "hierarchical 구조와 주기성 정합" 단일 해석은 다른 non-hierarchical 모델 spike 로 인해 성립하지 않는다. 사전 등록 가설 아님, 사후 가설 재등록 필요 (§9.2 M5, §9.3 P4). - 재현성: PAPE seed std 1.15%p (Track B 내 최소). - wall-clock: 107.3s / run (6모델 중 최장). 본 실행 총 1609s = 26.8분. VQ 추가 시 비용 2× 내 예측.
VQ 삽입점 설계-수준 논거 (archived ADR-009 재검토 필요):
- SCI-Block binary tree: (downsample → conv1d → interact → upsample) 반복. Interact 단계의 latent representation 이 tree node 단위로 hierarchical 하게 구성되며, 각 level 마다 시계열의 특정 resolution 정보를 담는다.
- 후보 삽입점 1: interact 블록 내 latent (odd/even split 후 fused feature) 에 VQ 적용. 각 level 의 codebook 크기를 block size 에 비례해 축소. FL 관점: 가구 공통 low-resolution codebook + 가구 특화 high-resolution residual.
- 후보 삽입점 2: upsample 이전 fused feature 에만 VQ (encoder 말단). 단일 codebook 으로 layer-wise dependency 감소.
- 문헌 지지 tier (critic Minor): SCINet 의 SCI-Block binary tree 에 VQ 를 직접 이식한 원 논문 사례는 없다. 유사 구조의 간접 근거 로 HDT (Hierarchical Decomposition Transformer, AAAI 2024) 의 tree-like multi-resolution decomposition 에서 각 level 표현에 quantization 을 적용한 사례가 있다. SCI-Block 이 HDT 의 "tree node resolution 별 representation" 과 구조적으로 유사하다는 점에서 "유사 구조 1편 문헌 근거" 수준으로 평가 (직접 근거 0편, 유사 근거 1편).
- 리스크: TimeVQVAE / Sparse-VQ Transformer 문헌 (v9-05 §8.3 인용) 과 달리 SCINet 은 원 논문이 VQ 이식 사례 없음. 본 phase 에서 검증 불가, v10 이후 별도 phase 필요.
불확실성:
- Watch 판정은 HR@1 34.48 이 절대 gating 37.00 에 ~2.52%p 미달. VQ 삽입 시 typical 정확도 하락 (문헌상 1–5%p) 으로 Watch 도 이탈할 수 있다. "backbone 자체가 37% 에 미달한 상태에서 VQ 를 더하는 설계" 의 근본 위험은 v9-05 §8.3 P1 과 동일하게 남는다.
- Track B raw torch loop 의 Apt-wise HR@1 seed std (Apt30 10.30%p) 는 VQ 삽입으로 더 악화될 가능성. 3-seed 내부 안정성 2차 검증 필요.
6.2 VQ 후보 2순위 — NBEATSx (단일축 PAPE 점추정 1위, 통계 비유의)¶
선정 근거:
- PAPE 축 20-모델 점추정 1위: 34.58 (95% CI [30.71, 38.46]). R1b (37.36) 와 CI 중첩, 1-sample t-test p ≈ 0.15 (n=15) — 통계적 우위 없음 (§4.1.3). "R1b/N-HiTS 대체 주장 금지", 실무 가치 있는 baseline 수준.
- Track A 재현성 우수: PAPE seed std 0.66%p (Track A 2위).
- N-HiTS 선조 구조: basis-expansion (identity / trend / seasonality) + backward/forward residual. v9-05 §1.3 에서 이미 NHITS (PAPE 39.26) 가 NF 3종 대비 13%p 우위 관찰과 정합.
VQ 삽입점 설계-수준 논거:
- 후보 삽입점 1: basis coefficient theta 에 VQ. 각 stack (identity / trend / seasonality) 이 block 별로 theta 를 생성하는데, theta space 를 discrete codebook 으로 매핑. 이는 Sparse-VQ Transformer 2024 의 "FFN-free + VQ" 철학과 동류.
- 후보 삽입점 2: Stack 입력 (backward residual) 에 VQ. 선행 stack 이 제거하지 못한 residual 을 codebook 으로 quantize 해 다음 stack 으로 전달.
- 문헌 지지 tier (critic Minor): VQ-TR (OpenReview) 은 transformer 내부 표현에 basis-expansion-style quantization 을 적용한 사례로, NBEATSx 의 theta coefficient 공간 VQ 와 철학적으로 정합. basis-expansion quantization 이라는 공통 개념으로 "1편 근거" 수준 (직접 근거는 아니나 basis 표현 quantization 사례).
- 장점 대비 SCINet: basis 가 명시적 (trend / seasonality) 으로 분리되어 있어 codebook 해석이 relatively tractable. FL 공유 시 "trend codebook 은 가구 공통 / seasonality codebook 은 가구 특화" 분할 설계 자연스러움.
불확실성:
- HR@1 축 실패: 22.86 (37 gating 대비 −14.14%p). peak 시점 정확도가 낮은 모델을 peak 분석 track 의 base 로 쓰는 것은 본 연구 동기와 상충. "PAPE 는 강하나 HR 은 약한" 비대칭 backbone 의 VQ 이식은 PAPE 만 좋아지거나 HR 이 더 나빠질 수 있다.
- Apt51 PAPE 47.51 단일 outlier: NBEATSx Apt51 은 다른 4가구 (28–34) 와 달리 PAPE 47.51. seed std 0.32%p 로 안정적인 실패 — 구조적 약점. Apt51 의 주기성이 basis expansion 의 (trend + seasonality) 분해와 부정합할 가능성.
- PAPE leadership 유래 미확인: NBEATSx 점추정 1위의 구조적 해석 부재. identity stack 의 존재, basis_n_polynomials=2 / n_harmonics=2 설정, dropout=0.0 hyperparameter 중 dominant 요인이 무엇인지 ablation 미수행. 사전 등록된 가설 아님 — post-hoc 해석. 또한 통계적 유의성 부재 (§4.1.3) 로 점추정 1위 자체가 seed 확장 시 변동 가능.
6.3 VQ 후보 외 판정¶
- TSMixer (PAPE 53.77): 단일축 PAPE 조차 미통과 → VQ 후보 부적합.
- TiDE (PAPE 49.49 / HR@1 32.19): 단일축 HR@1 이 30.00 임계 초과 (Watch 30.00 에 +2.19%p) 하나 PAPE 축 49.49 > 46 으로 Watch FAIL. 전 축 단독 Pass 없음. dense encoder 의 VQ 삽입 논거도 약하다 (설계서 §2.1.3). VQ 후보 부적합.
- Pyraformer / Crossformer: H9-6c FAIL. VQ 후보 부적합.
- ETSformer: 미평가 (SKIP).
6.4 종합 — VQ 후보 결정 위임¶
본 보고서는 옵션 선택을 강제하지 않는다. 다만 다음을 기록한다:
- 설계서 §1.4 정의 상 H9-6a Pass = FAIL → ADR-009 archive 의 "H9-6a Pass 시 VQ 후보 확정, Fail 시 사용자 결정" 조항에 따라 VQ 재시도 여부는 사용자 결정 사항.
- 설계서 §6.4 옵션 A (추가 backbone 없이 VQ 방향 재검토) / 옵션 B (hyperparameter sweep, 별도 phase) / 옵션 C (peak-aware loss 접근 재개, v6 Phase3b 재검토) 중 선택 미강제.
- 분석적 권고: H9-6a Watch PASS (SCINet) 는 v9-05 이후 2차 착수에서 처음 등장한 VQ-친화 후보. 단, 근본적 위험 (§6.1 불확실성) 은 남아있어 "VQ backbone 확정" 이 아니라 "VQ 삽입 실험 진입 자격 최초 획득" 수준.
7. Wall-clock (설계서 §5.4 R7)¶
MLflow run 메타 기반 집계 (90 model runs, n=15 per model).
7.1 모델별 per-run (s)¶
| Model | n | mean | std | min | max | total | 설계 예상 (per-run) |
|---|---|---|---|---|---|---|---|
| NBEATSx | 15 | 24.0 | 1.57 | 22.7 | 29.6 | 359.6 | 2–3분 (~120–180s) |
| TSMixer | 15 | 25.0 | 0.68 | 23.7 | 26.5 | 374.4 | 2분 (~120s) |
| TiDE | 15 | 26.1 | 0.55 | 25.3 | 27.0 | 391.9 | 2–3분 (~120–180s) |
| SCINet | 15 | 107.3 | 26.80 | 69.8 | 182.1 | 1609.2 | 2분 (~120s) |
| Pyraformer | 15 | 28.6 | 10.43 | 14.5 | 47.0 | 429.2 | 3분 (~180s) |
| Crossformer | 15 | 73.2 | 21.28 | 33.1 | 114.9 | 1097.9 | 2분 (~120s) |
| 합계 | 90 | — | — | — | — | 4262.1 (71.0 min) | 설계 2–3h |
7.2 설계 예상 vs 실측¶
- 설계 예상 총소요: Track A 30–45분 + Track B 1.5–2h ≈ 2–3h (설계서 §5.4).
- 실측 총소요: 71.0분 (1.18h) — 설계 하한 (2h) 의 59%.
- 예산 초과 없음.
- 가장 긴 모델: SCINet 107.3s/run (1609s 총, 모든 모델 중 최대). SCI-Block 재귀 구조가 epoch 당 연산량을 증가시킨 결과로 추정 (ablation 미수행, 가설 수준).
- SCINet wall-clock breakdown (critic Minor): mean 107.3s / run, epoch 평균 n ≈ 16 (train_loss history range 12–26, 15 runs 중앙값), per-epoch ≈ 6.7s. EC50 학습 배치 크기 batch_size=32, seq_len=96, apt 당 train 길이 약 2700h 기준, epoch 당 train batch ≈ 84, per-batch ≈ 80ms. SCI-Block 재귀 depth (default 3) × (downsample + conv1d + interact + upsample) 4-stage 구조 + val + early_stop check 포함 — 다른 Track B 2종 대비 3–4× 느린 이유는 재귀 depth 의 연산 누적으로 추정. SCI-Block depth ablation 필요 (본 phase 범위 외).
- 가장 짧은 모델: NBEATSx 24.0s/run. NF MLP 3종 모두 24–26s 로 비슷.
- Track A vs Track B wall-clock std: Track A 3종 모두 std ≤ 1.57s (매우 일관). Track B SCINet/Crossformer std 20–27s (batch 수 비례 변동 큼, early_stop 작동 결과).
7.3 Early-stop 해석¶
- Track A: NBEATSx/TSMixer/TiDE 모두 train_loss history 길이 = 500 (스크립트
max_steps) — 3 모델 모두 max_steps 한계 도달, early_stop 미 trigger. 이는 NF Lightning 의val_check_steps=50기준 early_stop (patience=50에 해당하는 val check 50/50) 이 trigger 되지 않았음을 의미하며, 수렴 전 중단 가능성이 있다 (critic Minor). 후속 조치 P3: 차기 phase 에서 Track A NF 3종에 대해max_steps=1000으로 재실험하여 NBEATSx PAPE 점추정이 진짜 수렴 값인지 검증 필요. 500 한계 도달이 3종 모두에서 일관되게 발생했으므로, 500 수렴 가정은 본 phase 근거로는 불충분. - Track B: train_loss history 길이 다양 (SCINet 12–26, Pyraformer 7–18, Crossformer 7–14). patience=5 early_stop 정상 작동. train_epochs=50 미만 종료.
8. Per-apt 관찰¶
8.1 Apt51 주기성 — v9-05 관찰 재현¶
v9-05 §8.1 관찰 2 에서 "Apt51 은 모든 모델이 공통적으로 HR 이 높은 learnability 가 있는 가구" 로 기록. v9-06 에서 재확인:
| Model | Apt51 HR@1 | Apt51 HR@2 | Apt51 PAPE | 전 가구 대비 HR@1 |
|---|---|---|---|---|
| NBEATSx | 28.10 | 35.71 | 47.51 | +5.24 (vs 22.86) |
| TSMixer | 52.86 | 72.38 | 59.44 | +23.53 (vs 29.33) |
| TiDE | 52.86 | 75.24 | 56.19 | +20.67 (vs 32.19) |
| SCINet | 67.62 | 79.52 | 43.14 | +33.14 (vs 34.48) |
| Pyraformer | 9.52 | 12.86 | 52.51 | −5.34 |
| Crossformer | 44.29 | 66.19 | 50.72 | +23.05 |
| Chronos-Bolt (ref) | 69.04 | — | 41.47 | — |
| B1 (ref) | 69.95 | — | — | — |
관찰:
- Apt51 은 전 모델에 쉬운 가구 (데이터 특성): 6 모델 Apt51 HR@1 mean = 42.54, 5-apt 전체 HR@1 mean = 26.46. 전 모델 평균 +16%p spike. 이 spike 는 비-hierarchical 모델 (TSMixer 52.86, TiDE 52.86, Crossformer 44.29) 에서도 관측되므로, Apt51 의 high learnability 는 데이터 특성 (가구 소비 패턴의 주기성 / periodicity) 에 귀속되며, 특정 모델 구조 (hierarchical, basis-expansion) 와의 "정합" 으로 단일 원인을 특정할 수 없다 (critic Major 3). 이 Apt51 easy-household 특성은 사전 등록된 가설 아님 — 사후 가설로 재등록 필요 (§9.3 P4).
- Chronos 69.04 / B1 69.95 / SCINet 67.62: 절대치상 SCINet 의 Apt51 HR@1 이 Chronos/B1 zero-shot + FL baseline 수준에 근접하는 상대 최고치. 이는 Apt51 의 데이터 특성을 고정해도 SCINet 이 추가적으로 잘 모델링한다는 의미 (가설). 단 "hierarchical 구조 정합 단일 해석" 은 다른 non-hierarchical 모델 spike 로 인해 성립 불가.
- Pyraformer 만 Apt51 HR@1 9.52% 로 역방향 이상값. pyramidal attention 의 multi-scale tree 가 짧은 seq_len=96 context 에서 무력화되는 가설 (설계서 §2.2.3 R2) 의 증거.
- NBEATSx 은 Apt51 PAPE 47.51 (다른 4가구 28–34 대비 outlier). basis expansion 이 Apt51 의 주기성과 부정합 — 가설 수준.
- Apt51 특이성의 구조적 해석은 본 phase 범위 외. v9-05 revision 1 에서 post-hoc speculation 제한 원칙 유지.
8.2 NBEATSx Apt-wise PAPE — R1b 점추정 대비 분해¶
NBEATSx 의 PAPE 점추정 34.58 (95% CI [30.71, 38.46], R1b 와 통계 비유의, §4.1.3) 을 per-apt 로 분해 (비교 대상은 점추정, 통계적 우위가 아님):
| Apt | NBEATSx PAPE | R1b 37.36 대비 | NHITS 39.26 대비 |
|---|---|---|---|
| Apt6 | 32.92 | −4.44%p | −6.34%p |
| Apt15 | 28.23 | −9.13%p | −11.03%p |
| Apt30 | 33.63 | −3.73%p | −5.63%p |
| Apt51 | 47.51 | +10.15%p | +8.25%p |
| Apt88 | 30.64 | −6.72%p | −8.62%p |
| Mean | 34.58 | −2.78%p (통계 비유의) | −4.68%p (CI 상한 +0.80%p 근접) |
관찰:
- NBEATSx 는 4/5 가구 (Apt6/15/30/88) 에서 R1b 점추정 대비 크게 이기나, Apt51 에서는 +10.15%p 열세. Apt51 은 NBEATSx 가 SCINet (PAPE 43.14) 에게도 진다.
- 전체 평균 34.58 의 R1b 점추정 대비 −2.78%p 는 4/5 가구의 우위가 1/5 가구의 열세를 상쇄한 결과. per-apt level 에서 NBEATSx 가 R1b 를 "대체" 한다고 볼 수 없으며 (Apt51 열세 단독으로도 충분 반례), 전체 평균 우위도 통계적으로는 R1b 와 구별 불가.
- 표현 교정 (critic Major 2): "mean PAPE Pass" 대신 "mean PAPE 점추정 기준 우위, CI 중첩으로 통계 비유의". "R1b 갱신" 표현은 본 보고서에서 금지.
- R1b 는 FL aggregation 으로 가구 간 공통 signal 을 획득하는 구조. NBEATSx 는 가구별 독립 학습이어서 가구 특이성 (Apt51) 이 그대로 drift 한다. 이는 NBEATSx + FL (FedAvg 또는 FedPM) 실험의 사전 근거가 될 수 있으나 본 phase 범위 외.
8.3 Pyraformer / Crossformer 의 가구 편차¶
Pyraformer seed std per apt (PAPE): Apt30 8.91%p, Apt51 4.57%p, Apt88 4.05%p. Apt30 은 3-seed 내부 variance 가 매우 크다 (42.69 / 54.04 / 49.35 로 약 11%p spread). Crossformer 동일 양상 (Apt30 seed std 7.12%p). 본 두 모델의 결론 (H9-6c 지지) 은 5-apt 평균 기준으로 robust 하나, apt-level 해석은 seed 노이즈에 주의해야 한다.
9. Observations / 한계 / 후속 참고점¶
9.1 관찰된 패턴¶
-
NBEATSx 이 PAPE 축 점추정 1위 (34.58, 95% CI [30.71, 38.46], n=15). 20-모델 중 점추정 1위이나 R1b (37.36), N-HiTS (39.26) 와 통계적 구별 불가 (§4.1.3). 4/5 가구 우위 + Apt51 단독 열세 (+10%p) 구조. HR@1 22.86 으로 37 gating 미달, v9-06 Watch AND 정의로 FAIL, v9-05 Watch OR 정의로 PAPE 단일축 PASS. "실무 가치 있는 baseline" 수준의 표현 제한.
-
SCINet 이 v9-06 Watch 단독 PASS (PAPE 42.35 + HR@1 34.48, 둘 다 Watch 임계 ≤46/≥30 통과). v9-05 Watch (OR) 정의로도 PAPE 단일축 PASS — 두 정의 모두 robust. MSE 도 20-모델 1위 (0.498). Apt51 HR@1 67.62 — 단 이는 Apt51 의 데이터 특성 (전 모델 +16%p spike) 이 부분 원인이며, SCINet 구조 단일 해석 금지. Track B 유일 VQ-친화 후보로 부상. 단 HR@1 이 gating 37 에 2.52%p 미달, VQ 삽입 시 악화 리스크 존재.
-
H9-6b (SCINet Track B 내 상대 우위) SUPPORTED (분모 ETSformer 제외 2모델). SCINet 이 Pyraformer/Crossformer 대비 전 4축 (MSE, PAPE, HR@1, HR@2) 우위. Hierarchical structure (N-HiTS 와 같은 category) 와 attention-based variant 간의 계층 격차 확인. ETSformer 제외 상태에서 부분 근거.
-
H9-6c (TSLib Transformer variants FAIL) PARTIAL (2/3, ETSformer 미검증). Pyraformer (pyramidal attention) / Crossformer (cross-dim attention) 모두 v9-05 NF 3종 (Autoformer/Informer/FEDformer) 의 FAIL 패턴 동질. 평가된 5/5 모델 FAIL + ETSformer 미검증 1건. "decomposition+attention 카테고리의 peak 축 structural handicap" 가설에 부분 지지 (단 ablation 미수행, ETSformer 미평가 한정).
-
Track A NF 3종 모두 max_steps 한계 도달 — 수렴 전 중단 가능성. NBEATSx/TSMixer/TiDE 각각 train_loss history 길이 = 500. early_stop 미 trigger. 본 phase 결과는 "500 수렴 가정 하의 잠정 값" 수준. max_steps=1000 sweep 필수 후속 (§9.3 P3).
-
Track B raw torch loop 의 seed 비대칭 확대 (설계서 R6 실현). Pyraformer/Crossformer PAPE seed std 4%p+ (Track A 0.2–0.7%p 대비 ~6×). SCINet 은 1.15%p 로 상대적 안정.
9.2 한계¶
-
ETSformer 미평가, 분모 축소 (critic Critical 1). TSLib 소스 CUDA device mismatch 로 SKIP. TSLib
ETSformer_EncDec.py:156의 ≤5 line device fix 를 본 phase 에서 한 번만 시도 후 종료 — "1-line fix 가능성을 충분히 소진하지 않고 SKIP" 으로 H9-6c 분모 3 → 2 축소. 따라서 H9-6c 판정은 PARTIAL (2/3) 로 조정, "SUPPORTED (2/2)" 표기는 denominator manipulation 으로 취소. "ETS decomposition + attention" 카테고리 결론은 보류. -
ablation 미수행. NBEATSx PAPE 34.58 의 구조적 원인 (identity stack / n_polynomials / n_harmonics / dropout=0.0 중 dominant 요인) 을 ablation 으로 규명하지 않음. 가설 수준으로만 §6.2 에 기록.
-
Apt51 특이성 해석 cherry-picking 교정 (critic Major 3). SCINet Apt51 HR@1 67.62 에 대한 기존 "hierarchical down-up sampling 이 주기성 가구와 정합" 해석은 TSMixer/TiDE/Crossformer 등 비-hierarchical 모델의 Apt51 HR@1 spike (44–53) 로 반증. Apt51 은 전 모델에 쉬운 가구 (데이터 특성) 로 재귀속. 이 easy-household 특성은 사전 등록된 가설 아님, 사후 가설 재등록 필요 (§9.3 P4). v9-05 revision 1 의 M1 교훈 (cherry-picking 금지) 이 본 보고서에 일부 누락되었음을 인정.
-
NBEATSx PAPE 점추정 1위의 통계적 비유의성 (critic Major 2). n=15 95% CI [30.71, 38.46] 이 R1b (37.36) 를 포함, 1-sample t-test p ≈ 0.15 (n=15 one-sided). seed=42 단일 n=5 로 보면 p ≈ 0.44 로 더욱 약함. "R1b / N-HiTS 를 대체" 하거나 "갱신" 한다는 주장은 통계적 근거 부족. n 확장 (5-seed 이상) 또는 CI overlap 없는 모델 발견 없이는 통계 우위 주장 불가. 본 보고서는 "실무 가치 있는 baseline" 수준으로 표현 제한.
-
Watch 기준 사후성 의혹 (critic Major 1). v9-06 Watch (AND, 46/30) 는 v9-05 Watch (OR, 43/37) 와 다른 정의. SCINet 결과 관찰 후 설계 단계 정의 변경이 이루어진 정황, 46/30 정량 근거 부재. 사후적 정합화 의혹을 완전 배제할 수 없음. 완화 조치로 v9-05 Watch 병기 판정 실시 (§4.1.2) — SCINet 은 두 정의 모두 PASS 하여 결론은 robust.
-
R1b 갱신의 비대칭성. NBEATSx 가 R1b 37.36 을 전 가구 uniformity 로 이긴 것이 아니라 4/5 가구 우위 + Apt51 단독 열세의 결과. 전체 평균 우위도 통계 비유의 (§9.2 #4). "R1b 대체 가능" 과 같은 강한 주장 금지 (R1b 는 FL aggregation / NBEATSx 는 per-apt 학습). 동등 조건 (FL 없이 per-apt 학습) 의 R1b 재실행 없이 직접 비교 한계.
-
seed 비대칭 (v6/v9-01 baseline). v9-05 §4.2 와 동일한 문제. §5.3 에서 seed=42 subset 으로 순위 robustness 는 확인했으나, apt-level 상대 우위는 seed 선택에 따라 변동 가능.
-
3-seed 가 HR 축 noise 해소에 부족. Pyraformer/Crossformer 의 HR@1 seed std 10%p+ 존재. gating 임계 부근 모델의 3-seed mean 판정은 seed 확장 시 변동 가능. 본 phase 는 SCINet Watch PASS / NBEATSx PAPE 단일축 점추정 우위 판정이 임계에서 ≥ 2%p 떨어져 있어 비교적 robust, Pyraformer (HR@1 14.86) / Crossformer (21.24) 의 FAIL 도 robust. 단 Crossformer PAPE 44.45 의 v9-05 Watch 43 boundary 는 seed 노이즈 범위 (§4.1.5).
9.3 후속 참고점¶
- [P1] VQ 삽입 시 primary 후보는 SCINet, secondary 는 NBEATSx (통계 겸손 톤). 본 결정은 사용자 위임. ADR-009 archive 의 "VQ 이식 시 정확도 저하" 교훈은 두 후보 모두에 적용.
- [P2] ETSformer 재시도: 차기 phase 에서 TSLib
src/tslib/models/ETSformer_EncDec.py:156의index_tuple텐서를.to(f.device)로 이동하는 ≤5 line 패치 후 재시도. 성공 시 H9-6c 분모 3 복원, 실패 시 ETSformer 구조적 부적합 증거로 결론. (critic Critical 1 대응) - [P3] Track A max_steps sweep (500 → 1000): NBEATSx/TSMixer/TiDE 모두 max_steps 한계 도달, 수렴 여부 미확인. max_steps=1000 재실험으로 NBEATSx PAPE 점추정 안정성 검증 필요. (critic Minor 대응)
- [P4] Apt51 easy-household 가설 사전 등록: "Apt51 은 전 모델에 쉬운 가구 (HR@1 +16%p spike)" 를 사후 관찰이 아닌 사전 가설로 재등록 하여 다음 phase 설계에서 검증. 예: Apt51 제외 하한 EC50 변형 vs 전체 EC50 비교. (critic Major 3 대응)
- [P5] NBEATSx + FL 결합 (FedAvg 또는 FedPM) 실험이 본 phase 관찰 (Apt51 drift) 의 자연스러운 후속. per-apt 학습의 Apt51 실패를 FL aggregation 이 완화할지는 사전 등록 가설로 별도 phase 설계 필요.
- [P6] SCINet SCI-Block depth ablation: wall-clock 107.3s/run 의 재귀 depth 기여도 / PAPE·HR 성능과의 trade-off 검증. (critic Minor 대응)
- [P1 유지] 다음 phase 스크립트에서도 Lightning
on_train_epoch_endcallback + Track B raw loop 직접 로깅 패턴 유지. v9-05 → v9-06 에서 해당 패턴 성공 확인 (§2).
10. 산출물 인덱스¶
| 유형 | 경로 | 비고 |
|---|---|---|
| 설계서 | report/version9/lab-leader/v9-06_baseline_extension_2.md |
|
| 스크립트 | experiments/forecasting/v9_0424_baseline_extension_2.py |
본 실행 완료 |
| 원시 결과 | outputs/v9_baseline_ext_2/summary.csv |
90 records, 집계 원천 |
| 메트릭 JSON | outputs/v9_baseline_ext_2/metrics/*.json |
90 파일, per-run 7 metric |
| 예측 npy (MLflow) | predictions/{track}_{model}_{apt}_seed{seed}_{y_true,y_pred}.npy |
MLflow artifact (local 삭제) |
| 체크포인트 (Track B) | outputs/v9_baseline_ext_2/checkpoints/{track}_{model}_{apt}_seed{seed}/best.pt |
MLflow artifact 에도 저장 |
| MLflow | experiment v9-baseline-ext-2 (id=230168135891700392) |
91 active (90 model + 1 aggregate_mean), 10 deleted |
| v9-05 결과 | report/version9/exp-expert/v9-05_baseline_ext_results.md (revision 1) |
|
| v9-04 phase 종합 | report/version9/lab-leader/v9-04_phase_summary.md |
v9-01 recap 포함 |
| v6 baseline | report/version6/exp-expert/v6_0415_nf_baseline_results.md |
R1b / B0 / B1 / NHITS 원천 |
| 본 보고서 | report/version9/exp-expert/v9-06_baseline_ext_2_results.md |
11. 최종 판정 요약¶
- H9-6a (Strict, PAPE ≤ 43 AND HR@1 ≥ 37): FAIL (6/6 모델 미충족).
- H9-6a (v9-06 Watch, PAPE ≤ 46 AND HR@1 ≥ 30): SCINet 단독 PASS (PAPE 42.35, HR@1 34.48). VQ 후보 1순위 (통계 겸손 톤).
- H9-6a (v9-05 Watch 병기, PAPE ≤ 43 OR HR@1 ≥ 37): SCINet / NBEATSx 2개 모델이 PAPE 단일축 PASS. Watch 정의 선택에 결론 robust (SCINet 양 정의 모두 PASS).
- H9-6a (단일축 PAPE 점추정): NBEATSx 점추정 1위 (34.58, 95% CI [30.71, 38.46]). R1b (37.36) / N-HiTS (39.26) CI 중첩 — 통계 비유의, "대체·갱신" 주장 금지. VQ 후보 2순위.
- H9-6b (SCINet Track B 내 상대 우위, 분모 ETSformer 제외 2모델): SUPPORTED (SCINet 이 Pyraformer/Crossformer 대비 전 4축 최선, 부분 근거).
- H9-6c (TSLib Transformer variants FAIL 재현): PARTIAL (2/3, ETSformer 미검증) — Pyraformer + Crossformer FAIL 확인, ETSformer 는 TSLib
ETSformer_EncDec.py:156≤5 line 패치 미시도로 SKIP. 원문 분모 3 → 2 축소는 denominator manipulation 약점 (critic Critical 1). - MLflow per-epoch 로깅 검증: 6 모델 × 샘플 전수 train_loss/val_loss n ≥ 1 확인 (§2.1). v9-05 Critical C1 재발 없음.
- Wall-clock: 총 71.0분 (설계 예산 2–3h 의 59%). Track A 3종 모두 max_steps 한계 도달 (수렴 여부 미확인, P3 후속), Track B 3종 early_stop 정상.
- VQ 후보 결정은 사용자 위임 (H9-6a Strict FAIL 기반 ADR-009 조항).
reporter 체인으로 넘긴다 (revision 1 완료, 1 revision cycle 만료).
12. Revision Log¶
Revision 1 (2026-04-25)¶
exp-critic 보고서 (report/exp-critic/v9-06_baseline_ext_2_critic.md) 의 Critical 1건 / Major 3건 / Minor 5건 반영. 재실험 없음. 주요 변경:
- Critical 1 (H9-6c Denominator Manipulation): 판정 "SUPPORTED (2/2)" → "PARTIAL (2/3, ETSformer 미검증)". ETSformer SKIP 이 TSLib
ETSformer_EncDec.py:156≤5 line device fix 시도 미기록 약점임을 §1.2 / §4.3 / §9.2 #1 에 자기-인정. P2 후속 조치 등록. 누적 "5/5 FAIL" 표현 → "평가된 5/5 FAIL + ETSformer 미검증 1건" 으로 수정. - Major 1 (Watch 정의 사후성): §4 최상단에 v9-05 Watch (OR, 43/37) 와 v9-06 Watch (AND, 46/30) 정의 차이 명시. 46/30 정량 근거 부재 자기-인정, §9.2 #5 한계 기록. v9-05 Watch 병기 재판정 §4.1.2 신설 — SCINet 은 양 정의 모두 PASS, NBEATSx 는 v9-05 OR 정의로 PAPE 단일축 PASS, Crossformer 는 boundary (§4.1.5).
- Major 2 (NBEATSx 통계 비유의): §4.1.3 신설 — 95% CI [30.71, 38.46] 이 R1b (37.36) / N-HiTS (39.26) 모두 포함, 1-sample t-test p ≈ 0.15 (n=15) / p ≈ 0.44 (seed=42 n=5). "R1b / N-HiTS 갱신" 표현 금지, "점추정 1위, 실무 가치 있는 baseline" 으로 대체. §5.2 랭킹, §6.2, §8.2, §9.1 #1, §9.2 #4, §9.2 #6, §11 전수 교정.
- Major 3 (Apt51 Cherry-picking 재발): §6.1 / §8.1 에 Apt51 HR@1 spike 가 TSMixer 52.86 / TiDE 52.86 / Crossformer 44.29 등 비-hierarchical 모델에서도 관찰됨을 반증으로 제시. "hierarchical 구조 정합" 해석 삭제, "Apt51 은 전 모델 HR@1 +16%p spike 가구 (데이터 특성)" 로 귀속. 사후 가설 재등록 필요성 §9.3 P4 에 등록.
- Minor 1 (Crossformer Watch nuance): §4.1.5 신설 — PAPE 44.45 는 v9-05 Watch 43 대비 +1.45%p 로 seed std 범위 내 boundary FAIL 임을 기록.
- Minor 2 (문헌 지지 tier): §6.1 SCINet 에 HDT AAAI 2024 (유사 구조 1편 근거), §6.2 NBEATSx 에 VQ-TR (basis-expansion quantization 1편 근거) 추가.
- Minor 3 (max_steps 한계): §7.3 / §9.3 P3 에 NBEATSx/TSMixer/TiDE 모두 max_steps=500 도달, 수렴 전 중단 가능성. max_steps=1000 재실험 후속 조치 등록.
- Minor 4 (SCINet wall-clock breakdown): §7.2 에 per-epoch ≈ 6.7s, per-batch ≈ 80ms, SCI-Block depth 누적 해석 추가.
- Minor 5 (H9-6b 분모): §4.2 / §0 Executive / §11 에 "분모 ETSformer 미포함 (2모델)" 명시.
불변 사항 유지: H9-6a Strict FAIL, SCINet v9-06 Watch PASS, VQ 후보 SCINet / NBEATSx 2종, per-epoch 로깅 검증 완료.
금지 사항 준수: 재실험 / 새 run / 하이퍼 튜닝 없음. summary.csv 90 records 외 수치 추가 없음. ETSformer 강행 없음.