title: v9-06 Baseline Extension 2 Results — NF MLP 3종 + TSLib 4종 (ETSformer SKIP) author: exp-expert date: 2026-04-24 phase: v9 (extension) stage: baseline-ext-2 predecessor_design: report/version9/lab-leader/v9-06_baseline_extension_2.md predecessor_phase: - report/version9/exp-expert/v9-05_baseline_ext_results.md - report/version9/lab-leader/v9-04_phase_summary.md mlflow_experiment: v9-baseline-ext-2 scripts: - experiments/forecasting/v9_0424_baseline_extension_2.py outputs: - outputs/v9_baseline_ext_2/summary.csv verdict: H9-6a (strict): FAIL (전 6모델 (PAPE≤43 AND HR@1≥37) 미달) H9-6a (watch, v9-06 AND 정의): PASS (SCINet 단독, PAPE 42.35 AND HR@1 34.48) H9-6a (watch, v9-05 OR 정의 병기): PASS (SCINet: 양축 모두 해당 / NBEATSx: PAPE 단일축) H9-6a (단일축 PAPE 점추정): NBEATSx 34.58 (20모델 1위, 95% CI [30.71, 38.46] 이 R1b 37.36 / N-HiTS 39.26 포함 — 통계 비유의) H9-6b (SCINet Track B 내 상대 우위, 분모 ETSformer 제외 3모델): SUPPORTED H9-6c (TSLib Transformer variants FAIL 재현): PARTIAL (2/3, ETSformer 미검증 — TSLib ETSformer_EncDec.py:156 1-line patch 미시도) revision: 1 (2026-04-25)

v9-06 Baseline Extension 2 결과 보고서 — NF MLP 3종 + TSLib 4종¶

0. Executive Summary¶

v9-06 은 v9-05 (NF Transformer 3종 FAIL) 의 extension 으로, (a) Track A — NeuralForecast MLP 계열 3종 (NBEATSx / TSMixer / TiDE) 과 (b) Track B — TSLib 4종 (SCINet / ETSformer / Pyraformer / Crossformer) 을 EC50 5가구 × 3-seed 독립 학습 조건에서 평가했다. ETSformer 는 TSLib 소스 버그 (CUDA device mismatch) 로 smoke 단계에서 SKIP, 본 실행은 6 모델 로 진행. 본 실행은 완료 상태이며, 본 보고서는 집계·분석만 수행 (재학습 없음).

Watch 기준 정의 변경 경고 (critic Major 1): v9-05 설계서 line 48 의 Watch 는 (PAPE ≤ 43 OR HR@1 ≥ 37) (단일축 OR), v9-06 설계서 §6.1 의 Watch 는 (PAPE ≤ 46 AND HR@1 ≥ 30) (양축 AND, 개별 임계 완화). 두 정의 모두 표시·병기 판정한다 (§4.1.1).

핵심 판정:

H9-6a (strict, PAPE ≤ 43 AND HR@1 ≥ 37): FAIL — 6 모델 모두 두 축 동시 달성 미충족.
H9-6a (v9-06 Watch, PAPE ≤ 46 AND HR@1 ≥ 30): SCINet 단독 PASS (PAPE 42.35, HR@1 34.48). Track B 내 유일한 Watch 통과. VQ 후보 1순위 (통계적 겸손 톤 §6).
H9-6a (v9-05 Watch 병기, PAPE ≤ 43 OR HR@1 ≥ 37, 단일축 OR): SCINet PASS (PAPE 42.35 ≤ 43 AND HR@1 34.48 — OR 의 PAPE 지 절로 통과), NBEATSx PASS (PAPE 34.58 ≤ 43, OR 의 PAPE 지절 통과). 결론이 Watch 정의에 robust.
H9-6a (단일축 PAPE 점추정): NBEATSx 점추정 1위 (n=15, mean=34.58, 95% CI [30.71, 38.46]). 단 CI 가 R1b 37.36 과 N-HiTS 39.26 을 모두 포함 — 통계적으로 R1b/N-HiTS 대체 주장 불가 (§4.1.3).
H9-6b (SCINet Track B 내 상대 우위, 분모 ETSformer 제외 Pyraformer/Crossformer 2모델): SUPPORTED — SCINet PAPE 42.35 < Crossformer 44.45 < Pyraformer 47.26; SCINet HR@1 34.48 >> Crossformer 21.24 > Pyraformer 14.86.
H9-6c (TSLib Transformer variants FAIL 재현): PARTIAL (2/3, ETSformer 미검증) — Pyraformer (PAPE 47.26, HR@1 14.86), Crossformer (PAPE 44.45, HR@1 21.24) FAIL 확인. 가설 원문 분모 3 → 2 로 축소된 denominator manipulation 은 약점. ETSformer 는 TSLib 소스 1-line device fix 를 한 번만 시도 후 SKIP, 재시도 여부는 §9.3 후속 조치로 기록.

Model	Track	PAPE	HR@1	HR@2	MSE	판정 (v9-06 정의)
NBEATSx	A	34.58 ± 7.00	22.86 ± 5.15	32.76 ± 5.47	0.671	단일축(PAPE) 점추정 1위, CI 중첩
SCINet	B	42.35 ± 3.38	34.48 ± 18.04	46.38 ± 18.19	0.498	Watch PASS
TSMixer	A	53.77	29.33	42.86	0.570	FAIL
TiDE	A	49.49	32.19	46.00	0.549	FAIL
Pyraformer	B	47.26	14.86	20.29	0.669	FAIL (H9-6c 지지)
Crossformer	B	44.45	21.24	34.00	0.547	FAIL (H9-6c 지지)

1. 실행 요약¶

1.1 조건¶

스크립트: experiments/forecasting/v9_0424_baseline_extension_2.py
MLflow experiment: v9-baseline-ext-2 (id=230168135891700392)
가구: GWN_HOUSEHOLDS = [Apt6, Apt15, Apt30, Apt51, Apt88], year=2016
시드: {42, 7, 123} (v9-05 일치)
Track A (NF): input_size=96, horizon=24, max_steps=500, early_stop_patience_steps=50, val_check_steps=50, lr=1e-3, batch_size=32, scaler_type=standard
Track B (TSLib): seq_len=96, label_len=48, pred_len=24, features=S, lr=1e-3, batch_size=32, train_epochs=50, patience=5
TSLib git hash: 4e938a1767106324dd753b2a44832bf870a0252e
총 run: 6 models × 5 apts × 3 seeds = 90 FINISHED (+1 aggregate_mean = 91 active)
하드웨어: NVIDIA RTX 5070 Ti (단일 GPU 순차)
집계 원천: outputs/v9_baseline_ext_2/summary.csv (90 records 정상)

1.2 ETSformer SKIP¶

사유: TSLib src/tslib/models/ETSformer.py 소스에서 내부 연산 시 CUDA device mismatch 발생. smoke 단계에서 재현, 본 실행에서 제외. 본 phase 범위는 외부 patch 를 허용하지 않으므로 ETSformer 는 본 보고서에서 배제되며, H9-6c (TSLib Transformer variants FAIL 재현) 는 Pyraformer + Crossformer 2/3 모델로 평가.

약점 자기-인정 (critic Critical 1): engineer 는 smoke 단계에서 TSLib 소스 패치를 한 번만 시도 후 SKIP 했으며, 시도 범위·패치 대상 파일·실패 스택트레이스를 스크립트나 로그에 완전히 기록하지 않았다. 구체적으로, TSLib src/tslib/models/ETSformer_EncDec.py:156 의 index_tuple 텐서를 .to(f.device) 로 이동하는 ≤5 line 패치 는 본 phase 에서 재시도하지 않았다. 설계서 §5.3 smoke 실패 대응 지침 ("해당 모델만 본 phase 제외, 나머지 진행") 에 절차상 부합하나, "1-line fix 가능성을 충분히 소진하지 않고 SKIP" 은 H9-6c 분모 축소 (3 → 2) 의 원인이 된다.

후속 조치 (P2): 차기 phase 에서 TSLib src/tslib/models/ETSformer_EncDec.py:156 의 index_tuple 텐서를 .to(f.device) 로 이동하는 ≤5 line 패치 후 재시도. 성공 시 H9-6c 분모 3 복원. 패치가 실패하면 TSLib ETSformer 구현체 자체가 단일 변수 시계열에 구조적으로 부적합한 증거로 해석 가능.

1.3 재현¶

본 보고서의 모든 수치는 outputs/v9_baseline_ext_2/summary.csv 에서 직접 계산.
재현: uv run python -c "import pandas as pd; df = pd.read_csv('outputs/v9_baseline_ext_2/summary.csv'); print(df.groupby('model')[['mse','pape','hr_tol1','hr_tol2']].mean())".

2. MLflow 로깅 강제 준수 증거 (v9-05 Critical C1 재발 방지)¶

2.0 개요¶

v9-05 reporter §8.3 P1 강제사항 ("다음 phase 스크립트에서 Lightning on_train_epoch_end callback 필수") 에 대해, 본 phase 는 Track A 에 EpochMLflowCallback (pytorch_lightning.Callback 동적 상속) 을 NF trainer_kwargs["callbacks"] 에 주입 하고, Track B 에 raw torch loop 내 매 epoch mlflow.log_metric(..., step=epoch) 을 직접 호출 하는 두 경로로 대응했다 (스크립트 §EpochMLflowCallback, §run_track_b).

2.1 검증 결과 (`MlflowClient().get_metric_history(run_id, "train_loss")` 길이 확인)¶

Random 5 샘플 (stratified sampling by model):

run_name	train_loss n	val_loss n	run_id prefix	결과
A_NBEATSx_Apt51_seed7	500	11	`61fdc871`	OK
B_Crossformer_Apt6_seed42	11	11	`74cf0cd7`	OK
B_Crossformer_Apt15_seed123	7	7	`5abe7db1`	OK
B_SCINet_Apt88_seed7	26	26	`c88b1f95`	OK
B_SCINet_Apt51_seed123	17	17	`ed4d763d`	OK

모델별 1 샘플 (6 모델 전수 커버):

model	train_loss n	val_loss n	run 예시	결과
Crossformer	14	14	B_Crossformer_Apt88_seed123	OK
NBEATSx	500	11	A_NBEATSx_Apt88_seed123	OK
Pyraformer	18	18	B_Pyraformer_Apt88_seed123	OK
SCINet	12	12	B_SCINet_Apt88_seed123	OK
TSMixer	500	11	A_TSMixer_Apt88_seed123	OK
TiDE	500	11	A_TiDE_Apt88_seed123	OK

해석:

Track A (NF/Lightning): train_loss 가 step=500 까지 기록됨. 이는 NF 의 내부 Lightning trainer 가 max_steps=500 한계까지 학습한 경우로, callback 이 매 training step 마다 (on_train_epoch_end 가 Lightning 에서 mini-batch 단위 한 step 을 하나의 epoch 로 간주) trigger 된 결과. val_loss 는 val_check_steps=50 기준으로 ~10회 (step 50 / 100 / ... / 500) 기록. NBEATSx/TSMixer/TiDE 6 샘플 모두 500 training records → 3 Track A 모델 모두 max_steps 한계까지 학습, early_stop 미 trigger. 이는 추가 max_steps sweep 가치를 시사하나 본 phase 범위 외.
Track B (TSLib): train_loss / val_loss 모두 epoch 단위 일치 (SCINet 12–26, Crossformer 7–14, Pyraformer 18). 각 run 의 n 값이 서로 다르다는 것은 early_stop (patience=5) 이 정상 작동 했음을 확인해 준다 (train_epochs=50 미만 종료).
CLAUDE.md "Training loss → mlflow.log_metric(step=) per epoch/round" 규약 충족. v9-05 Critical C1 재발 없음.

2.2 MLflow 전체 상태¶

카테고리	개수
Active FINISHED (Track A: NBEATSx/TSMixer/TiDE × 15 each)	45
Active FINISHED (Track B: SCINet/Pyraformer/Crossformer × 15 each)	45
Active FINISHED (aggregate_mean)	1
소계 (active)	91
Deleted (smoke 및 실패 run tombstone)	10
전체 (ALL)	101

본 exp-expert 세션은 추가 삭제/수정 조작을 수행하지 않았다.

3. 집계 테이블¶

3.1 Table A — model × apt (3-seed mean ± std)¶

전 7 metrics. 공간 제약으로 본문엔 PAPE / HR@1 / HR@2 / MSE 를 기재. MAE/MAPE/sMAPE 는 outputs/v9_baseline_ext_2/summary.csv 참조.

PAPE (%) — lower is better

Model	Apt6	Apt15	Apt30	Apt51	Apt88
NBEATSx	32.92 ± 1.11	28.23 ± 0.47	33.63 ± 1.11	47.51 ± 0.32	30.64 ± 0.27
TSMixer	52.18 ± 0.62	43.74 ± 0.49	55.41 ± 0.15	59.44 ± 1.17	58.07 ± 0.51
TiDE	44.70 ± 0.04	39.20 ± 0.12	53.33 ± 0.18	56.19 ± 0.19	54.04 ± 0.37
SCINet	39.88 ± 0.72	37.88 ± 0.98	46.53 ± 1.36	43.14 ± 2.03	44.32 ± 0.67
Pyraformer	47.46 ± 3.08	34.87 ± 1.68	48.70 ± 8.91	52.51 ± 4.57	52.78 ± 4.05
Crossformer	35.19 ± 2.85	39.41 ± 2.06	48.12 ± 7.12	50.72 ± 5.59	48.79 ± 3.55

HR@tol=1 (%) — higher is better

Model	Apt6	Apt15	Apt30	Apt51	Apt88
NBEATSx	20.00 ± 4.29	19.05 ± 4.36	27.14 ± 4.29	28.10 ± 0.82	20.00 ± 3.78
TSMixer	22.86 ± 1.43	25.24 ± 0.82	26.19 ± 2.18	52.86 ± 6.23	19.52 ± 2.18
TiDE	23.33 ± 2.97	25.71 ± 1.43	35.24 ± 0.82	52.86 ± 2.47	23.81 ± 2.18
SCINet	20.48 ± 2.18	25.71 ± 2.47	31.43 ± 10.30	67.62 ± 1.65	27.14 ± 2.86
Pyraformer	13.33 ± 12.32	15.71 ± 3.78	16.19 ± 11.64	9.52 ± 9.29	19.52 ± 10.33
Crossformer	23.33 ± 2.18	12.86 ± 6.55	7.62 ± 7.05	44.29 ± 16.84	18.10 ± 11.10

HR@tol=2 (%)

Model	Apt6	Apt15	Apt30	Apt51	Apt88
NBEATSx	30.00 ± 4.29	29.05 ± 2.18	39.05 ± 4.36	35.71 ± 2.97	30.00 ± 1.43
TSMixer	35.24 ± 4.77	37.14 ± 5.15	43.81 ± 4.36	72.38 ± 7.19	25.71 ± 2.97
TiDE	38.57 ± 1.43	38.10 ± 2.18	48.57 ± 5.15	75.24 ± 1.65	29.52 ± 3.60
SCINet	36.19 ± 0.82	38.57 ± 3.60	47.14 ± 3.60	79.52 ± 1.65	30.48 ± 2.97
Pyraformer	17.62 ± 16.39	22.38 ± 5.77	20.00 ± 13.95	12.86 ± 10.87	28.10 ± 15.00
Crossformer	35.24 ± 4.36	26.19 ± 10.14	14.29 ± 11.26	66.19 ± 12.40	27.62 ± 9.88

MSE — lower is better

Model	Apt6	Apt15	Apt30	Apt51	Apt88
NBEATSx	0.992	0.201	0.114	0.808	1.241
TSMixer	0.835	0.165	0.093	0.738	1.017
TiDE	0.804	0.164	0.089	0.701	0.987
SCINet	0.732	0.157	0.084	0.618	0.897
Pyraformer	1.022	0.232	0.101	0.935	1.055
Crossformer	0.774	0.170	0.094	0.735	0.960

3.2 Table B — model-level 5-apt × 3-seed overall (n=15 per model)¶

Model	Track	MSE	MAE	MAPE (%)	sMAPE (%)	PAPE (%)	HR@1 (%)	HR@2 (%)
NBEATSx	A	0.671 ± 0.458	0.543 ± 0.229	71.03 ± 9.60	49.01 ± 6.55	34.58 ± 7.00	22.86 ± 5.15	32.76 ± 5.47
TSMixer	A	0.570 ± 0.385	0.470 ± 0.193	56.35 ± 5.71	40.39 ± 2.92	53.77 ± 5.82	29.33 ± 12.70	42.86 ± 16.94
TiDE	A	0.549 ± 0.370	0.466 ± 0.189	55.72 ± 4.81	40.49 ± 3.40	49.49 ± 6.70	32.19 ± 11.73	46.00 ± 16.57
SCINet	B	0.498 ± 0.333	0.471 ± 0.194	69.11 ± 6.91	42.21 ± 4.27	42.35 ± 3.38	34.48 ± 18.04	46.38 ± 18.19
Pyraformer	B	0.669 ± 0.434	0.573 ± 0.234	88.57 ± 18.38	49.21 ± 6.11	47.26 ± 8.01	14.86 ± 9.08	20.29 ± 12.44
Crossformer	B	0.547 ± 0.361	0.501 ± 0.201	73.53 ± 7.53	44.67 ± 4.79	44.45 ± 7.38	21.24 ± 15.61	34.00 ± 19.98

주: ± 는 n=15 sample std. 가구 간 편차 (5-apt 간 spread) 가 dominant 하여 값이 크다. apt 내 3-seed std 는 §3.3 참조.

3.3 3-seed 편차 (같은 apt × 모델 내)¶

PAPE seed std (apt-wise 평균):

Model	Apt6	Apt15	Apt30	Apt51	Apt88	apt-wise mean
NBEATSx	1.11	0.47	1.11	0.32	0.27	0.66
TSMixer	0.62	0.49	0.15	1.17	0.51	0.59
TiDE	0.04	0.12	0.18	0.19	0.37	0.18
SCINet	0.72	0.98	1.36	2.03	0.67	1.15
Pyraformer	3.08	1.68	8.91	4.57	4.05	4.46
Crossformer	2.85	2.06	7.12	5.59	3.55	4.24

Track A 3종 모두 seed std < 1%p — 재현성 우수.
SCINet seed std 1.15%p — Track B 내 최소, 재현성 안정.
Pyraformer / Crossformer seed std 4%p+ — 설계서 R6 (raw torch loop 의 seed 비결정성) 경고가 실현됨. Track B attention variant 모델의 seed 비대칭이 Track A 대비 ~6× 로 확장.

4. H9-6a / H9-6b / H9-6c Gating 판정¶

Watch 기준 정의 변경 경고 (critic Major 1, 사후성 의혹): v9-06 설계서 §6.1 은 Watch 를 (PAPE ≤ 46 AND HR@1 ≥ 30) 으로 정의하며, 이는 v9-05 설계서 line 48 의 Watch 정의 (PAPE ≤ 43 OR HR@1 ≥ 37) 과 다음 세 점에서 다르다: (1) 조건 결합자 OR → AND, (2) PAPE 임계 43 → 46 완화, (3) HR@1 임계 37 → 30 완화. v9-05 결과 (NF Transformer 3종 전수 FAIL) 관찰 후 v9-06 설계 단계에서 이 정의 변경이 이루어졌고, SCINet 이 PAPE 42.35 / HR@1 34.48 로 "v9-05 Watch OR 와 v9-06 Watch AND 를 모두 통과" 하는 값을 내었다.

임계값 46 / 30 의 정량적 근거는 본 보고서와 설계서 모두에서 명시되지 않는다. 따라서 SCINet 결과가 관측된 후 설계 단계 OR/AND 선택이 사후적 정합화 의혹을 완전히 배제할 수 없음 을 기록한다 (§9.2 재인용). 완화 조치로 두 Watch 정의 모두로 재판정 하며 결론이 정의에 robust 함을 제시한다.

4.1 H9-6a (Pass/Watch/Fail 3-tier)¶

기준: 5-apt × 3-seed mean (n=15 per model).

4.1.1 v9-06 설계 Watch 정의 (AND 기준, 완화 임계)¶

Model	Track	PAPE	HR@1	seed std (PAPE)	Strict (PAPE≤43 & HR@1≥37)	v9-06 Watch (PAPE≤46 & HR@1≥30)
NBEATSx	A	34.58	22.86	0.66	FAIL (HR@1 −14.14%p)	FAIL (HR@1 −7.14%p)
TSMixer	A	53.77	29.33	0.59	FAIL	FAIL
TiDE	A	49.49	32.19	0.18	FAIL	FAIL (PAPE +3.49)
SCINet	B	42.35	34.48	1.15	FAIL (HR@1 −2.52%p)	PASS
Pyraformer	B	47.26	14.86	4.46	FAIL	FAIL
Crossformer	B	44.45	21.24	4.24	FAIL	FAIL

4.1.2 v9-05 설계 Watch 정의 병기 (OR 기준, 엄격 임계 — 사후성 의혹 해소)¶

v9-05 Watch = (PAPE ≤ 43 OR HR@1 ≥ 37, 단일축 통과).

Model	PAPE ≤ 43?	HR@1 ≥ 37?	v9-05 Watch (OR) 판정
NBEATSx	YES (34.58)	NO (22.86)	PASS (PAPE 단일축)
TSMixer	NO (53.77)	NO	FAIL
TiDE	NO (49.49)	NO	FAIL
SCINet	YES (42.35)	NO (34.48)	PASS (PAPE 단일축)
Pyraformer	NO	NO	FAIL
Crossformer	NO (44.45)	NO	FAIL (PAPE +1.45%p, HR@1 −2.52%p — nuance §4.1.5)

v9-05 Watch 기준 결과: SCINet / NBEATSx 2개 모델이 PAPE 단일축으로 PASS. v9-06 Watch 와 결론 비교:

Model	v9-06 Watch (AND)	v9-05 Watch (OR)	결론 robustness
SCINet	PASS	PASS	두 정의 모두 PASS
NBEATSx	FAIL	PASS (PAPE 단일축)	v9-05 기준에서 추가 PASS

SCINet 은 v9-05 / v9-06 Watch 정의 모두로 PASS 하여, Watch 정의 선택에 결론이 robust. NBEATSx 는 v9-05 기준 Watch (OR) 로는 PAPE 단일축 PASS. 사후성 의혹 (§4 상단) 이 완전 해소되지는 않으나, 결론이 임계 정의 하에서 적어도 SCINet 판정에 대해 일관됨을 확인한다.

4.1.3 NBEATSx PAPE 점추정 1위의 통계적 유의성 (critic Major 2)¶

NBEATSx PAPE n=15 mean = 34.58, sample std = 7.00, SE = 7.00 / √15 = 1.81. 95% CI = [30.71, 38.46] (t-분포 df=14 기준).

참조 모델	PAPE	NBEATSx 95% CI [30.71, 38.46] 포함 여부
R1b (FedPM+DLinear)	37.36	포함
N-HiTS (v6)	39.26	미포함 (CI 상한 +0.80%p)
NBEATSx seed=42 단일	34.53	포함

1-sample t-test (H0: NBEATSx PAPE mean = 37.36, 대립가설: NBEATSx < 37.36):

n=15 전체: t = (34.58 − 37.36) / (7.00 / √15) = −1.54, p ≈ 0.15 (one-sided).
seed=42 subset (n=5): t = (34.53 − 37.36) / (std_seed42 / √5). seed=42 PAPE 가 apt-wise 로 32.87 / 27.89 / 33.38 / 47.82 / 30.69, mean=34.53, std=7.57 → t = −0.83, p ≈ 0.44 (one-sided).

결론: NBEATSx 의 PAPE 축 점추정 1위 (34.58) 는 R1b (37.36) 와 95% CI 중첩 및 p ≥ 0.15 로 통계적 우위를 주장할 수 없다. 95% CI 는 N-HiTS (39.26) 조차 상한 +0.80%p 로 근접해 포함 경계. 본 보고서의 표현은 "실무 가치 있는 baseline" 수준으로 제한하며, R1b / N-HiTS 를 "대체" 하거나 "갱신" 한다는 주장은 금지. 표현 교정:

기존 표현 "R1b (37.36) / N-HiTS (39.26) 를 갱신해 전 v6/v9 benchmark 20 모델 중 PAPE 1위" → 수정 표현 "점추정 기준 20-모델 중 1위 (n=15, mean=34.58, 95% CI [30.71, 38.46]); 단 CI 가 R1b (37.36) / N-HiTS (39.26) 모두 포함하여 통계적 구별 불가".
§5.2 랭킹표 각주 및 §9.3 한계 섹션에도 동일 교정 반영.

4.1.4 판정 요약¶

H9-6a (Strict): FAIL — 6 모델 전원 두 축 동시 충족 불가.
H9-6a (v9-06 Watch, AND): SCINet 단독 PASS (PAPE 42.35 ≤ 46 AND HR@1 34.48 ≥ 30). seed std 1.15%p 로 Watch 안정 기준 (< 2.00%p) 충족.
H9-6a (v9-05 Watch, OR, 병기): SCINet / NBEATSx 2개 PASS (둘 다 PAPE 단일축).
단일축 PAPE 점추정: NBEATSx 34.58 (20모델 1위, 95% CI [30.71, 38.46] R1b·N-HiTS 포함 — 통계 비유의).
Track 분리 판정: Track A Watch PASS 0 (v9-06 AND), Track B Watch PASS 1 (SCINet).

4.1.5 Crossformer PAPE nuance (critic Minor)¶

Crossformer PAPE = 44.45, v9-05 Watch OR 정의에서 PAPE ≤ 43 조건에는 미달 (+1.45%p), HR@1 축은 21.24 < 37 로 미달. 단 PAPE 차이 1.45%p 는 apt-wise seed std 2.06–7.12%p 범위 내이며, 5-apt 평균 seed std 4.24%p 와 비교해도 noise 범위. 즉 Crossformer 는 v9-05 Watch 단일축 PAPE 기준에 "근접 FAIL" (boundary) 로, 3-seed 확대 시 변동 가능. 본 보고서는 현 n=15 기준으로 FAIL 판정하되, 절대적 gating 이 아닌 경계선임을 기록.

4.2 H9-6b (SCINet Track B 내 상대 우위, 분모 ETSformer 제외)¶

설계서 §6.2 원문 기준은 ETSformer / Pyraformer / Crossformer 3종 (Track B 4 − SCINet) 대비 SCINet 상대 우위. ETSformer SKIP (critic Minor) 으로 분모가 3 → 2 (Pyraformer, Crossformer) 로 축소 됨을 명시. 본 판정은 2개 비교 모델만으로 도출된 부분 근거이며, ETSformer 패치 재시도 시 결과 변동 가능.

Metric	SCINet	Pyraformer	Crossformer	SCINet 상대 우위
PAPE (lower)	42.35	47.26	44.45	OK (min=44.45 보다 −2.10%p)
HR@1 (higher)	34.48	14.86	21.24	OK (max=21.24 보다 +13.24%p)
HR@2 (higher)	46.38	20.29	34.00	OK (max=34.00 보다 +12.38%p)
MSE (lower)	0.498	0.669	0.547	OK

H9-6b 판정: SUPPORTED (분모 ETSformer 제외 2모델). SCINet 이 Pyraformer/Crossformer 2모델 대비 전 4축 최선. 설계서 §1.3 가설 ("SCINet 의 SCI-Block binary tree 가 N-HiTS hierarchical interpolation 과 동류, 나머지 attention 계열 대비 peak 축 상대 우위") 수치적 근거 확보. 절대 gating 은 v9-06 Watch 수준으로 통과 (§4.1). ETSformer 가 포함되었더라도 결과가 유지될지는 §9.3 후속 패치 재시도로 확인 필요.

4.3 H9-6c (TSLib Transformer variants FAIL 재현) — PARTIAL¶

원문 가설 (설계서 §1.3 및 §6.3): "ETSformer / Pyraformer / Crossformer 3종 모두 FAIL 재현". 즉 분모 3 이 원칙.

본 실행 현실: ETSformer SKIP 으로 분모 2 (Pyraformer + Crossformer) 만 평가. 원문 분모 3 → 실효 분모 2 로 축소된 상태에서 판정 (critic Critical 1: denominator manipulation).

Model	PAPE	HR@1	(PAPE>43 OR HR@1<37)?
Pyraformer	47.26	14.86	YES (양축 FAIL)
Crossformer	44.45	21.24	YES (양축 FAIL)
ETSformer	—	—	미검증 (SKIP)

H9-6c 판정: PARTIAL (2/3, ETSformer 미검증). 기존 "SUPPORTED (2/2)" 표기는 critic Critical 1 에 따라 취소. Pyraformer (pyramidal attention), Crossformer (cross-dim attention) 은 v9-05 Autoformer/Informer/FEDformer 의 FAIL 패턴 (PAPE 50+, HR@1 < 30) 과 동질 (단 Crossformer PAPE 44.45 는 v9-05 3종보다 ~8%p 낮음). 그러나 ETSformer 결과 없이 원문 가설의 완전 지지는 불가능 하며, 판정은 잠정적 PARTIAL 수준이다. ETSformer 가 "ETS decomposition + attention" 카테고리 특성상 FAIL 할 것이 priorly 예상되나 (설계서 §2.2.2 "강한 FAIL 예상"), 수치 미확인 상태에서 가설 결론을 내릴 수 없다.

약점 자기-인정: ETSformer SKIP 이 "smoke 실패 대응" 절차에 부합하나 (§1.2), TSLib ETSformer_EncDec.py:156 의 1-line device fix 를 충분히 시도하지 않은 상태에서 분모 축소가 이루어졌다. 본 보고서는 이 점을 한계로 기록하며, §9.3 P2 후속 조치로 "차기 phase 에서 1-line 패치 후 재시도" 를 명시한다.

v9-05 와의 비교:

Source	Model	Category	PAPE	HR@1
v9-05	Autoformer	MovingAvg decomp	52.91	15.33
v9-05	Informer	ProbSparse distil	53.40	20.67
v9-05	FEDformer	Fourier top-k	52.04	27.05
v9-06	Pyraformer	Pyramidal attn	47.26	14.86
v9-06	Crossformer	Cross-dim attn	44.45	21.24

TSLib 2차 4종 중 평가된 2종은 v9-05 NF 3종과 동일 "attention + smoothing" 실패 카테고리. 평가 가능 모델 기준 누적 5/6 (v9-05 Autoformer/Informer/FEDformer 3종 + v9-06 Pyraformer/Crossformer 2종) 가 FAIL, ETSformer 1종은 미검증. 이는 "decomposition + attention 계열이 household-level peak 축에서 structurally handicapped" 가설 (v9-05 §8.1 관찰 1) 의 외부 validation 부분 지지 에 해당. "누적 5/5 FAIL" 표현은 ETSformer 미검증을 반영해 "평가된 5/5 FAIL + ETSformer 미검증 1건" 으로 수정. "ablation 미수행" 한정 조건은 유지 (v9-05 revision 1 가설 수준 표기 일관).

5. v9-01 / v6 / v9-05 전 baseline 병합 비교 (20 모델)¶

5.1 20-모델 종합 테이블¶

Source	Model	n_runs	seeds	MSE	MAPE	PAPE	HR@1	HR@2
v9-06	NBEATSx	15	{42,7,123}	0.671	71.03	34.58	22.86	32.76
v9-06	TSMixer	15	{42,7,123}	0.570	56.35	53.77	29.33	42.86
v9-06	TiDE	15	{42,7,123}	0.549	55.72	49.49	32.19	46.00
v9-06	SCINet	15	{42,7,123}	0.498	69.11	42.35	34.48	46.38
v9-06	Pyraformer	15	{42,7,123}	0.669	88.57	47.26	14.86	20.29
v9-06	Crossformer	15	{42,7,123}	0.547	73.53	44.45	21.24	34.00
v9-05	Autoformer	15	{42,7,123}	0.660	67.24	52.91	15.33	23.52
v9-05	Informer	15	{42,7,123}	0.648	56.74	53.40	20.67	32.48
v9-05	FEDformer	15	{42,7,123}	0.600	65.07	52.04	27.05	40.29
v9-01/v6	Chronos-Bolt (ZS)	5	{42}	0.555	55.11	44.98	37.71	48.56
v9-01/v6	TimeMoE-50M	5	{42}	0.549	66.31	43.38	32.93	42.88
v9-01/v6	moirai	5	{42}	0.641	56.50	46.61	17.73	27.86
v9-01/v6	PatchTST	5	{42}	0.572	58.80	48.41	21.14	30.00
v9-01/v6	iTransformer	5	{42}	0.593	59.04	51.00	19.43	27.14
v9-01/v6	TimesNet	5	{42}	0.594	56.91	48.90	26.57	38.29
v9-01/v6	NHITS	5	{42}	0.648	67.04	39.26	22.29	31.71
v9-01/v6	TFT	5	{42}	0.719	63.59	50.58	15.14	25.14
v9-01/v6	B0 (DLinear Local)	5	{42}	0.515	68.75	42.51	34.58	46.60
v9-01/v6	B1 (DLinear FedAvg)	5	{42}	0.505	68.67	43.64	36.92	49.39
v9-01/v6	R1b (FedPM+DLinear)	5	{42}	0.629	78.43	37.36	21.27	32.42

Seed 비대칭 경고: v9-05 / v9-06 은 n=15 (5-apt × 3-seed); v9-01/v6 는 n=5 (5-apt × seed=42 단일). 순위 robustness 는 §5.3 seed=42 subset 으로 교차 확인.

5.2 순위¶

PAPE (lower is better, 20 모델):

순위	Model	PAPE	근거
1	NBEATSx (v9-06 ★)	34.58	점추정 1위 (n=15, 95% CI [30.71, 38.46]) — R1b·N-HiTS 와 통계적 구별 불가 (§4.1.3)
2	R1b	37.36	NBEATSx CI 에 포함
3	NHITS	39.26	NBEATSx CI 상한 +0.80%p
4	SCINet (v9-06 ★)	42.35	Track B Watch PASS
5	B0	42.51
6	TimeMoE-50M	43.38
7	B1	43.64
8	Crossformer (v9-06 ★)	44.45
9	Chronos-Bolt	44.98
10	moirai	46.61
11	Pyraformer (v9-06 ★)	47.26
12	PatchTST	48.41
13	TimesNet	48.90
14	TiDE (v9-06 ★)	49.49
15	TFT	50.58
16	iTransformer	51.00
17	FEDformer (v9-05)	52.04
18	Autoformer (v9-05)	52.91
19	Informer (v9-05)	53.40
20	TSMixer (v9-06 ★)	53.77

HR@1 (higher is better, 20 모델):

순위	Model	HR@1	근거
1	Chronos-Bolt	37.71	zero-shot FM
2	B1	36.92
3	B0	34.58
4	SCINet (v9-06 ★)	34.48	Track B Watch
5	TimeMoE-50M	32.93
6	TiDE (v9-06 ★)	32.19
7	TSMixer (v9-06 ★)	29.33
8	FEDformer (v9-05)	27.05
9	TimesNet	26.57
10	NBEATSx (v9-06 ★)	22.86
11	NHITS	22.29
12	R1b	21.27
13	Crossformer (v9-06 ★)	21.24
14	PatchTST	21.14
15	Informer (v9-05)	20.67
16	iTransformer	19.43
17	moirai	17.73
18	Autoformer (v9-05)	15.33
19	TFT	15.14
20	Pyraformer (v9-06 ★)	14.86

5.3 seed=42 단일 보조 비교 (순위 robustness 확인)¶

summary.csv 에서 seed == 42 행만 필터링 (n=5 per model):

Model	seed=42 PAPE	3-seed PAPE	Δ	seed=42 HR@1	3-seed HR@1	Δ
NBEATSx	34.53	34.58	+0.05	21.14	22.86	+1.71
TSMixer	53.90	53.77	−0.13	31.43	29.33	−2.10
TiDE	49.43	49.49	+0.06	31.71	32.19	+0.48
SCINet	42.64	42.35	−0.29	34.86	34.48	−0.38
Pyraformer	48.49	47.26	−1.22	10.57	14.86	+4.29
Crossformer	44.87	44.45	−0.43	17.43	21.24	+3.81

해석:

Track A (NF 3종) seed=42 subset vs 3-seed mean 격차: PAPE ≤ 0.13%p, HR@1 ≤ 2.10%p. 순위 robustness 확보.
NBEATSx seed=42 PAPE 34.53 → 점추정 1위 결과가 seed=42 단일로도 유지 (v9-01/v6 baseline 과의 seed 비대칭 argument 에 robust). 단 seed=42 단일 n=5 의 1-sample t-test p ≈ 0.44 (§4.1.3) 로 통계 비유의성은 seed=42 기준에서 더 약함. "R1b / N-HiTS 갱신" 표현은 금지, 점추정 기준 일관성만 기록.
SCINet seed=42 subset: PAPE 42.64, HR@1 34.86 → Watch 판정 (PAPE≤46 AND HR@1≥30) seed=42 단일로도 유지.
Track B attention variant (Pyraformer/Crossformer) 은 seed=42 → 3-seed 로 가면서 HR@1 이 +3.8 ~ +4.3%p 상승 — raw torch loop 의 seed 비대칭 (§3.3) 이 여기서 관찰됨. 단 Pass 임계 (HR@1≥37) 에 도달하지 못해 판정은 불변.

6. VQ 후보 선별 (설계서 §6.2)¶

H9-6a Strict FAIL, v9-06 Watch AND 1개 (SCINet), 단일축 PAPE 점추정 1위 (NBEATSx, 통계 비유의). 두 모델의 VQ 삽입점 설계-수준 논거를 기록한다. ADR-009 archive 교훈 (VQ 삽입 시 정확도 하락 위험) 을 반영하여 현실적 제약을 동반한다.

통계적 겸손 톤 경고: NBEATSx 의 PAPE 1위 는 점추정 기준이며 R1b/N-HiTS 와 통계적 우위가 없음 (§4.1.3). SCINet 의 Watch PASS 는 v9-06 정의 기준이며, HR@1 34.48 은 gating 37 에 −2.52%p 미달. 두 후보 모두 "VQ backbone 확정" 이 아니라 "VQ 삽입 실험 진입 자격 최초 획득" 수준.

6.1 VQ 후보 1순위 — SCINet (Watch PASS, Track B 유일)¶

선정 근거:

절대 Watch 통과: PAPE 42.35 (≤ 46) AND HR@1 34.48 (≥ 30). Track B 4종 (ETSformer 제외 3종 평가) 중 유일.
MSE 1위 (0.498): 20 모델 중 B1 (0.505) 을 제치고 최소.
Apt51 HR 특이값 주의 — cherry-picking 교정 (critic Major 3): SCINet×Apt51 HR@1 = 67.62% (3-seed mean) 는 "hierarchical down-up sampling 구조와 주기성 정합" 구조 해석으로 귀속할 수 없다. 본 보고서 표 3.1 의 다른 비-hierarchical 모델 Apt51 HR@1 수치가 반증:
TSMixer×Apt51 HR@1 = 52.86 (all-MLP, non-hierarchical)
TiDE×Apt51 HR@1 = 52.86 (dense encoder, non-hierarchical)
Crossformer×Apt51 HR@1 = 44.29 (cross-dim attention, non-hierarchical)
Chronos zero-shot Apt51 HR@1 = 69.04 / B1 = 69.95 (별도 원천)

전 6 모델 Apt51 HR@1 평균 (NBEATSx 28.10 / TSMixer 52.86 / TiDE 52.86 / SCINet 67.62 / Pyraformer 9.52 / Crossformer 44.29) = 42.54, 5-apt 전체 HR@1 mean (26.46) 대비 +16.08%p spike. Pyraformer 만 Apt51 HR@1 9.52 (역방향 이상값). Apt51 자체가 전 모델에게 "쉬운 가구" 라는 해석이 데이터 특성에 부합 하며, SCINet 의 Apt51 강점은 "가구 특성 × 모델 일반 성능" 의 교호 효과로 해석 가능. 단 SCINet Apt51 67.62 는 Chronos/B1 에 근접하는 상대 최고치이므로 SCINet 의 Apt51 특화 효과가 부가적으로 존재할 여지는 있으나, "hierarchical 구조와 주기성 정합" 단일 해석은 다른 non-hierarchical 모델 spike 로 인해 성립하지 않는다. 사전 등록 가설 아님, 사후 가설 재등록 필요 (§9.2 M5, §9.3 P4). - 재현성: PAPE seed std 1.15%p (Track B 내 최소). - wall-clock: 107.3s / run (6모델 중 최장). 본 실행 총 1609s = 26.8분. VQ 추가 시 비용 2× 내 예측.

VQ 삽입점 설계-수준 논거 (archived ADR-009 재검토 필요):

SCI-Block binary tree: (downsample → conv1d → interact → upsample) 반복. Interact 단계의 latent representation 이 tree node 단위로 hierarchical 하게 구성되며, 각 level 마다 시계열의 특정 resolution 정보를 담는다.
후보 삽입점 1: interact 블록 내 latent (odd/even split 후 fused feature) 에 VQ 적용. 각 level 의 codebook 크기를 block size 에 비례해 축소. FL 관점: 가구 공통 low-resolution codebook + 가구 특화 high-resolution residual.
후보 삽입점 2: upsample 이전 fused feature 에만 VQ (encoder 말단). 단일 codebook 으로 layer-wise dependency 감소.
문헌 지지 tier (critic Minor): SCINet 의 SCI-Block binary tree 에 VQ 를 직접 이식한 원 논문 사례는 없다. 유사 구조의 간접 근거 로 HDT (Hierarchical Decomposition Transformer, AAAI 2024) 의 tree-like multi-resolution decomposition 에서 각 level 표현에 quantization 을 적용한 사례가 있다. SCI-Block 이 HDT 의 "tree node resolution 별 representation" 과 구조적으로 유사하다는 점에서 "유사 구조 1편 문헌 근거" 수준으로 평가 (직접 근거 0편, 유사 근거 1편).
리스크: TimeVQVAE / Sparse-VQ Transformer 문헌 (v9-05 §8.3 인용) 과 달리 SCINet 은 원 논문이 VQ 이식 사례 없음. 본 phase 에서 검증 불가, v10 이후 별도 phase 필요.

불확실성:

Watch 판정은 HR@1 34.48 이 절대 gating 37.00 에 ~2.52%p 미달. VQ 삽입 시 typical 정확도 하락 (문헌상 1–5%p) 으로 Watch 도 이탈할 수 있다. "backbone 자체가 37% 에 미달한 상태에서 VQ 를 더하는 설계" 의 근본 위험은 v9-05 §8.3 P1 과 동일하게 남는다.
Track B raw torch loop 의 Apt-wise HR@1 seed std (Apt30 10.30%p) 는 VQ 삽입으로 더 악화될 가능성. 3-seed 내부 안정성 2차 검증 필요.

6.2 VQ 후보 2순위 — NBEATSx (단일축 PAPE 점추정 1위, 통계 비유의)¶

선정 근거:

PAPE 축 20-모델 점추정 1위: 34.58 (95% CI [30.71, 38.46]). R1b (37.36) 와 CI 중첩, 1-sample t-test p ≈ 0.15 (n=15) — 통계적 우위 없음 (§4.1.3). "R1b/N-HiTS 대체 주장 금지", 실무 가치 있는 baseline 수준.
Track A 재현성 우수: PAPE seed std 0.66%p (Track A 2위).
N-HiTS 선조 구조: basis-expansion (identity / trend / seasonality) + backward/forward residual. v9-05 §1.3 에서 이미 NHITS (PAPE 39.26) 가 NF 3종 대비 13%p 우위 관찰과 정합.

VQ 삽입점 설계-수준 논거:

후보 삽입점 1: basis coefficient theta 에 VQ. 각 stack (identity / trend / seasonality) 이 block 별로 theta 를 생성하는데, theta space 를 discrete codebook 으로 매핑. 이는 Sparse-VQ Transformer 2024 의 "FFN-free + VQ" 철학과 동류.
후보 삽입점 2: Stack 입력 (backward residual) 에 VQ. 선행 stack 이 제거하지 못한 residual 을 codebook 으로 quantize 해 다음 stack 으로 전달.
문헌 지지 tier (critic Minor): VQ-TR (OpenReview) 은 transformer 내부 표현에 basis-expansion-style quantization 을 적용한 사례로, NBEATSx 의 theta coefficient 공간 VQ 와 철학적으로 정합. basis-expansion quantization 이라는 공통 개념으로 "1편 근거" 수준 (직접 근거는 아니나 basis 표현 quantization 사례).
장점 대비 SCINet: basis 가 명시적 (trend / seasonality) 으로 분리되어 있어 codebook 해석이 relatively tractable. FL 공유 시 "trend codebook 은 가구 공통 / seasonality codebook 은 가구 특화" 분할 설계 자연스러움.

불확실성:

HR@1 축 실패: 22.86 (37 gating 대비 −14.14%p). peak 시점 정확도가 낮은 모델을 peak 분석 track 의 base 로 쓰는 것은 본 연구 동기와 상충. "PAPE 는 강하나 HR 은 약한" 비대칭 backbone 의 VQ 이식은 PAPE 만 좋아지거나 HR 이 더 나빠질 수 있다.
Apt51 PAPE 47.51 단일 outlier: NBEATSx Apt51 은 다른 4가구 (28–34) 와 달리 PAPE 47.51. seed std 0.32%p 로 안정적인 실패 — 구조적 약점. Apt51 의 주기성이 basis expansion 의 (trend + seasonality) 분해와 부정합할 가능성.
PAPE leadership 유래 미확인: NBEATSx 점추정 1위의 구조적 해석 부재. identity stack 의 존재, basis_n_polynomials=2 / n_harmonics=2 설정, dropout=0.0 hyperparameter 중 dominant 요인이 무엇인지 ablation 미수행. 사전 등록된 가설 아님 — post-hoc 해석. 또한 통계적 유의성 부재 (§4.1.3) 로 점추정 1위 자체가 seed 확장 시 변동 가능.

6.3 VQ 후보 외 판정¶

TSMixer (PAPE 53.77): 단일축 PAPE 조차 미통과 → VQ 후보 부적합.
TiDE (PAPE 49.49 / HR@1 32.19): 단일축 HR@1 이 30.00 임계 초과 (Watch 30.00 에 +2.19%p) 하나 PAPE 축 49.49 > 46 으로 Watch FAIL. 전 축 단독 Pass 없음. dense encoder 의 VQ 삽입 논거도 약하다 (설계서 §2.1.3). VQ 후보 부적합.
Pyraformer / Crossformer: H9-6c FAIL. VQ 후보 부적합.
ETSformer: 미평가 (SKIP).

6.4 종합 — VQ 후보 결정 위임¶

본 보고서는 옵션 선택을 강제하지 않는다. 다만 다음을 기록한다:

설계서 §1.4 정의 상 H9-6a Pass = FAIL → ADR-009 archive 의 "H9-6a Pass 시 VQ 후보 확정, Fail 시 사용자 결정" 조항에 따라 VQ 재시도 여부는 사용자 결정 사항.
설계서 §6.4 옵션 A (추가 backbone 없이 VQ 방향 재검토) / 옵션 B (hyperparameter sweep, 별도 phase) / 옵션 C (peak-aware loss 접근 재개, v6 Phase3b 재검토) 중 선택 미강제.
분석적 권고: H9-6a Watch PASS (SCINet) 는 v9-05 이후 2차 착수에서 처음 등장한 VQ-친화 후보. 단, 근본적 위험 (§6.1 불확실성) 은 남아있어 "VQ backbone 확정" 이 아니라 "VQ 삽입 실험 진입 자격 최초 획득" 수준.

7. Wall-clock (설계서 §5.4 R7)¶

MLflow run 메타 기반 집계 (90 model runs, n=15 per model).

7.1 모델별 per-run (s)¶

Model	n	mean	std	min	max	total	설계 예상 (per-run)
NBEATSx	15	24.0	1.57	22.7	29.6	359.6	2–3분 (~120–180s)
TSMixer	15	25.0	0.68	23.7	26.5	374.4	2분 (~120s)
TiDE	15	26.1	0.55	25.3	27.0	391.9	2–3분 (~120–180s)
SCINet	15	107.3	26.80	69.8	182.1	1609.2	2분 (~120s)
Pyraformer	15	28.6	10.43	14.5	47.0	429.2	3분 (~180s)
Crossformer	15	73.2	21.28	33.1	114.9	1097.9	2분 (~120s)
합계	90	—	—	—	—	4262.1 (71.0 min)	설계 2–3h

7.2 설계 예상 vs 실측¶

설계 예상 총소요: Track A 30–45분 + Track B 1.5–2h ≈ 2–3h (설계서 §5.4).
실측 총소요: 71.0분 (1.18h) — 설계 하한 (2h) 의 59%.
예산 초과 없음.
가장 긴 모델: SCINet 107.3s/run (1609s 총, 모든 모델 중 최대). SCI-Block 재귀 구조가 epoch 당 연산량을 증가시킨 결과로 추정 (ablation 미수행, 가설 수준).
SCINet wall-clock breakdown (critic Minor): mean 107.3s / run, epoch 평균 n ≈ 16 (train_loss history range 12–26, 15 runs 중앙값), per-epoch ≈ 6.7s. EC50 학습 배치 크기 batch_size=32, seq_len=96, apt 당 train 길이 약 2700h 기준, epoch 당 train batch ≈ 84, per-batch ≈ 80ms. SCI-Block 재귀 depth (default 3) × (downsample + conv1d + interact + upsample) 4-stage 구조 + val + early_stop check 포함 — 다른 Track B 2종 대비 3–4× 느린 이유는 재귀 depth 의 연산 누적으로 추정. SCI-Block depth ablation 필요 (본 phase 범위 외).
가장 짧은 모델: NBEATSx 24.0s/run. NF MLP 3종 모두 24–26s 로 비슷.
Track A vs Track B wall-clock std: Track A 3종 모두 std ≤ 1.57s (매우 일관). Track B SCINet/Crossformer std 20–27s (batch 수 비례 변동 큼, early_stop 작동 결과).

7.3 Early-stop 해석¶

Track A: NBEATSx/TSMixer/TiDE 모두 train_loss history 길이 = 500 (스크립트 max_steps) — 3 모델 모두 max_steps 한계 도달, early_stop 미 trigger. 이는 NF Lightning 의 val_check_steps=50 기준 early_stop (patience=50 에 해당하는 val check 50/50) 이 trigger 되지 않았음을 의미하며, 수렴 전 중단 가능성이 있다 (critic Minor). 후속 조치 P3: 차기 phase 에서 Track A NF 3종에 대해 max_steps=1000 으로 재실험하여 NBEATSx PAPE 점추정이 진짜 수렴 값인지 검증 필요. 500 한계 도달이 3종 모두에서 일관되게 발생했으므로, 500 수렴 가정은 본 phase 근거로는 불충분.
Track B: train_loss history 길이 다양 (SCINet 12–26, Pyraformer 7–18, Crossformer 7–14). patience=5 early_stop 정상 작동. train_epochs=50 미만 종료.

8. Per-apt 관찰¶

8.1 Apt51 주기성 — v9-05 관찰 재현¶

v9-05 §8.1 관찰 2 에서 "Apt51 은 모든 모델이 공통적으로 HR 이 높은 learnability 가 있는 가구" 로 기록. v9-06 에서 재확인:

Model	Apt51 HR@1	Apt51 HR@2	Apt51 PAPE	전 가구 대비 HR@1
NBEATSx	28.10	35.71	47.51	+5.24 (vs 22.86)
TSMixer	52.86	72.38	59.44	+23.53 (vs 29.33)
TiDE	52.86	75.24	56.19	+20.67 (vs 32.19)
SCINet	67.62	79.52	43.14	+33.14 (vs 34.48)
Pyraformer	9.52	12.86	52.51	−5.34
Crossformer	44.29	66.19	50.72	+23.05
Chronos-Bolt (ref)	69.04	—	41.47	—
B1 (ref)	69.95	—	—	—

관찰:

Apt51 은 전 모델에 쉬운 가구 (데이터 특성): 6 모델 Apt51 HR@1 mean = 42.54, 5-apt 전체 HR@1 mean = 26.46. 전 모델 평균 +16%p spike. 이 spike 는 비-hierarchical 모델 (TSMixer 52.86, TiDE 52.86, Crossformer 44.29) 에서도 관측되므로, Apt51 의 high learnability 는 데이터 특성 (가구 소비 패턴의 주기성 / periodicity) 에 귀속되며, 특정 모델 구조 (hierarchical, basis-expansion) 와의 "정합" 으로 단일 원인을 특정할 수 없다 (critic Major 3). 이 Apt51 easy-household 특성은 사전 등록된 가설 아님 — 사후 가설로 재등록 필요 (§9.3 P4).
Chronos 69.04 / B1 69.95 / SCINet 67.62: 절대치상 SCINet 의 Apt51 HR@1 이 Chronos/B1 zero-shot + FL baseline 수준에 근접하는 상대 최고치. 이는 Apt51 의 데이터 특성을 고정해도 SCINet 이 추가적으로 잘 모델링한다는 의미 (가설). 단 "hierarchical 구조 정합 단일 해석" 은 다른 non-hierarchical 모델 spike 로 인해 성립 불가.
Pyraformer 만 Apt51 HR@1 9.52% 로 역방향 이상값. pyramidal attention 의 multi-scale tree 가 짧은 seq_len=96 context 에서 무력화되는 가설 (설계서 §2.2.3 R2) 의 증거.
NBEATSx 은 Apt51 PAPE 47.51 (다른 4가구 28–34 대비 outlier). basis expansion 이 Apt51 의 주기성과 부정합 — 가설 수준.
Apt51 특이성의 구조적 해석은 본 phase 범위 외. v9-05 revision 1 에서 post-hoc speculation 제한 원칙 유지.

8.2 NBEATSx Apt-wise PAPE — R1b 점추정 대비 분해¶

NBEATSx 의 PAPE 점추정 34.58 (95% CI [30.71, 38.46], R1b 와 통계 비유의, §4.1.3) 을 per-apt 로 분해 (비교 대상은 점추정, 통계적 우위가 아님):

Apt	NBEATSx PAPE	R1b 37.36 대비	NHITS 39.26 대비
Apt6	32.92	−4.44%p	−6.34%p
Apt15	28.23	−9.13%p	−11.03%p
Apt30	33.63	−3.73%p	−5.63%p
Apt51	47.51	+10.15%p	+8.25%p
Apt88	30.64	−6.72%p	−8.62%p
Mean	34.58	−2.78%p (통계 비유의)	−4.68%p (CI 상한 +0.80%p 근접)

관찰:

NBEATSx 는 4/5 가구 (Apt6/15/30/88) 에서 R1b 점추정 대비 크게 이기나, Apt51 에서는 +10.15%p 열세. Apt51 은 NBEATSx 가 SCINet (PAPE 43.14) 에게도 진다.
전체 평균 34.58 의 R1b 점추정 대비 −2.78%p 는 4/5 가구의 우위가 1/5 가구의 열세를 상쇄한 결과. per-apt level 에서 NBEATSx 가 R1b 를 "대체" 한다고 볼 수 없으며 (Apt51 열세 단독으로도 충분 반례), 전체 평균 우위도 통계적으로는 R1b 와 구별 불가.
표현 교정 (critic Major 2): "mean PAPE Pass" 대신 "mean PAPE 점추정 기준 우위, CI 중첩으로 통계 비유의". "R1b 갱신" 표현은 본 보고서에서 금지.
R1b 는 FL aggregation 으로 가구 간 공통 signal 을 획득하는 구조. NBEATSx 는 가구별 독립 학습이어서 가구 특이성 (Apt51) 이 그대로 drift 한다. 이는 NBEATSx + FL (FedAvg 또는 FedPM) 실험의 사전 근거가 될 수 있으나 본 phase 범위 외.

8.3 Pyraformer / Crossformer 의 가구 편차¶

Pyraformer seed std per apt (PAPE): Apt30 8.91%p, Apt51 4.57%p, Apt88 4.05%p. Apt30 은 3-seed 내부 variance 가 매우 크다 (42.69 / 54.04 / 49.35 로 약 11%p spread). Crossformer 동일 양상 (Apt30 seed std 7.12%p). 본 두 모델의 결론 (H9-6c 지지) 은 5-apt 평균 기준으로 robust 하나, apt-level 해석은 seed 노이즈에 주의해야 한다.

9. Observations / 한계 / 후속 참고점¶

9.1 관찰된 패턴¶

NBEATSx 이 PAPE 축 점추정 1위 (34.58, 95% CI [30.71, 38.46], n=15). 20-모델 중 점추정 1위이나 R1b (37.36), N-HiTS (39.26) 와 통계적 구별 불가 (§4.1.3). 4/5 가구 우위 + Apt51 단독 열세 (+10%p) 구조. HR@1 22.86 으로 37 gating 미달, v9-06 Watch AND 정의로 FAIL, v9-05 Watch OR 정의로 PAPE 단일축 PASS. "실무 가치 있는 baseline" 수준의 표현 제한.
SCINet 이 v9-06 Watch 단독 PASS (PAPE 42.35 + HR@1 34.48, 둘 다 Watch 임계 ≤46/≥30 통과). v9-05 Watch (OR) 정의로도 PAPE 단일축 PASS — 두 정의 모두 robust. MSE 도 20-모델 1위 (0.498). Apt51 HR@1 67.62 — 단 이는 Apt51 의 데이터 특성 (전 모델 +16%p spike) 이 부분 원인이며, SCINet 구조 단일 해석 금지. Track B 유일 VQ-친화 후보로 부상. 단 HR@1 이 gating 37 에 2.52%p 미달, VQ 삽입 시 악화 리스크 존재.
H9-6b (SCINet Track B 내 상대 우위) SUPPORTED (분모 ETSformer 제외 2모델). SCINet 이 Pyraformer/Crossformer 대비 전 4축 (MSE, PAPE, HR@1, HR@2) 우위. Hierarchical structure (N-HiTS 와 같은 category) 와 attention-based variant 간의 계층 격차 확인. ETSformer 제외 상태에서 부분 근거.
H9-6c (TSLib Transformer variants FAIL) PARTIAL (2/3, ETSformer 미검증). Pyraformer (pyramidal attention) / Crossformer (cross-dim attention) 모두 v9-05 NF 3종 (Autoformer/Informer/FEDformer) 의 FAIL 패턴 동질. 평가된 5/5 모델 FAIL + ETSformer 미검증 1건. "decomposition+attention 카테고리의 peak 축 structural handicap" 가설에 부분 지지 (단 ablation 미수행, ETSformer 미평가 한정).
Track A NF 3종 모두 max_steps 한계 도달 — 수렴 전 중단 가능성. NBEATSx/TSMixer/TiDE 각각 train_loss history 길이 = 500. early_stop 미 trigger. 본 phase 결과는 "500 수렴 가정 하의 잠정 값" 수준. max_steps=1000 sweep 필수 후속 (§9.3 P3).
Track B raw torch loop 의 seed 비대칭 확대 (설계서 R6 실현). Pyraformer/Crossformer PAPE seed std 4%p+ (Track A 0.2–0.7%p 대비 ~6×). SCINet 은 1.15%p 로 상대적 안정.

9.2 한계¶

ETSformer 미평가, 분모 축소 (critic Critical 1). TSLib 소스 CUDA device mismatch 로 SKIP. TSLib ETSformer_EncDec.py:156 의 ≤5 line device fix 를 본 phase 에서 한 번만 시도 후 종료 — "1-line fix 가능성을 충분히 소진하지 않고 SKIP" 으로 H9-6c 분모 3 → 2 축소. 따라서 H9-6c 판정은 PARTIAL (2/3) 로 조정, "SUPPORTED (2/2)" 표기는 denominator manipulation 으로 취소. "ETS decomposition + attention" 카테고리 결론은 보류.
ablation 미수행. NBEATSx PAPE 34.58 의 구조적 원인 (identity stack / n_polynomials / n_harmonics / dropout=0.0 중 dominant 요인) 을 ablation 으로 규명하지 않음. 가설 수준으로만 §6.2 에 기록.
Apt51 특이성 해석 cherry-picking 교정 (critic Major 3). SCINet Apt51 HR@1 67.62 에 대한 기존 "hierarchical down-up sampling 이 주기성 가구와 정합" 해석은 TSMixer/TiDE/Crossformer 등 비-hierarchical 모델의 Apt51 HR@1 spike (44–53) 로 반증. Apt51 은 전 모델에 쉬운 가구 (데이터 특성) 로 재귀속. 이 easy-household 특성은 사전 등록된 가설 아님, 사후 가설 재등록 필요 (§9.3 P4). v9-05 revision 1 의 M1 교훈 (cherry-picking 금지) 이 본 보고서에 일부 누락되었음을 인정.
NBEATSx PAPE 점추정 1위의 통계적 비유의성 (critic Major 2). n=15 95% CI [30.71, 38.46] 이 R1b (37.36) 를 포함, 1-sample t-test p ≈ 0.15 (n=15 one-sided). seed=42 단일 n=5 로 보면 p ≈ 0.44 로 더욱 약함. "R1b / N-HiTS 를 대체" 하거나 "갱신" 한다는 주장은 통계적 근거 부족. n 확장 (5-seed 이상) 또는 CI overlap 없는 모델 발견 없이는 통계 우위 주장 불가. 본 보고서는 "실무 가치 있는 baseline" 수준으로 표현 제한.
Watch 기준 사후성 의혹 (critic Major 1). v9-06 Watch (AND, 46/30) 는 v9-05 Watch (OR, 43/37) 와 다른 정의. SCINet 결과 관찰 후 설계 단계 정의 변경이 이루어진 정황, 46/30 정량 근거 부재. 사후적 정합화 의혹을 완전 배제할 수 없음. 완화 조치로 v9-05 Watch 병기 판정 실시 (§4.1.2) — SCINet 은 두 정의 모두 PASS 하여 결론은 robust.
R1b 갱신의 비대칭성. NBEATSx 가 R1b 37.36 을 전 가구 uniformity 로 이긴 것이 아니라 4/5 가구 우위 + Apt51 단독 열세의 결과. 전체 평균 우위도 통계 비유의 (§9.2 #4). "R1b 대체 가능" 과 같은 강한 주장 금지 (R1b 는 FL aggregation / NBEATSx 는 per-apt 학습). 동등 조건 (FL 없이 per-apt 학습) 의 R1b 재실행 없이 직접 비교 한계.
seed 비대칭 (v6/v9-01 baseline). v9-05 §4.2 와 동일한 문제. §5.3 에서 seed=42 subset 으로 순위 robustness 는 확인했으나, apt-level 상대 우위는 seed 선택에 따라 변동 가능.
3-seed 가 HR 축 noise 해소에 부족. Pyraformer/Crossformer 의 HR@1 seed std 10%p+ 존재. gating 임계 부근 모델의 3-seed mean 판정은 seed 확장 시 변동 가능. 본 phase 는 SCINet Watch PASS / NBEATSx PAPE 단일축 점추정 우위 판정이 임계에서 ≥ 2%p 떨어져 있어 비교적 robust, Pyraformer (HR@1 14.86) / Crossformer (21.24) 의 FAIL 도 robust. 단 Crossformer PAPE 44.45 의 v9-05 Watch 43 boundary 는 seed 노이즈 범위 (§4.1.5).

9.3 후속 참고점¶

[P1] VQ 삽입 시 primary 후보는 SCINet, secondary 는 NBEATSx (통계 겸손 톤). 본 결정은 사용자 위임. ADR-009 archive 의 "VQ 이식 시 정확도 저하" 교훈은 두 후보 모두에 적용.
[P2] ETSformer 재시도: 차기 phase 에서 TSLib src/tslib/models/ETSformer_EncDec.py:156 의 index_tuple 텐서를 .to(f.device) 로 이동하는 ≤5 line 패치 후 재시도. 성공 시 H9-6c 분모 3 복원, 실패 시 ETSformer 구조적 부적합 증거로 결론. (critic Critical 1 대응)
[P3] Track A max_steps sweep (500 → 1000): NBEATSx/TSMixer/TiDE 모두 max_steps 한계 도달, 수렴 여부 미확인. max_steps=1000 재실험으로 NBEATSx PAPE 점추정 안정성 검증 필요. (critic Minor 대응)
[P4] Apt51 easy-household 가설 사전 등록: "Apt51 은 전 모델에 쉬운 가구 (HR@1 +16%p spike)" 를 사후 관찰이 아닌 사전 가설로 재등록 하여 다음 phase 설계에서 검증. 예: Apt51 제외 하한 EC50 변형 vs 전체 EC50 비교. (critic Major 3 대응)
[P5] NBEATSx + FL 결합 (FedAvg 또는 FedPM) 실험이 본 phase 관찰 (Apt51 drift) 의 자연스러운 후속. per-apt 학습의 Apt51 실패를 FL aggregation 이 완화할지는 사전 등록 가설로 별도 phase 설계 필요.
[P6] SCINet SCI-Block depth ablation: wall-clock 107.3s/run 의 재귀 depth 기여도 / PAPE·HR 성능과의 trade-off 검증. (critic Minor 대응)
[P1 유지] 다음 phase 스크립트에서도 Lightning on_train_epoch_end callback + Track B raw loop 직접 로깅 패턴 유지. v9-05 → v9-06 에서 해당 패턴 성공 확인 (§2).

10. 산출물 인덱스¶

유형	경로	비고
설계서	`report/version9/lab-leader/v9-06_baseline_extension_2.md`
스크립트	`experiments/forecasting/v9_0424_baseline_extension_2.py`	본 실행 완료
원시 결과	`outputs/v9_baseline_ext_2/summary.csv`	90 records, 집계 원천
메트릭 JSON	`outputs/v9_baseline_ext_2/metrics/*.json`	90 파일, per-run 7 metric
예측 npy (MLflow)	`predictions/{track}_{model}_{apt}_seed{seed}_{y_true,y_pred}.npy`	MLflow artifact (local 삭제)
체크포인트 (Track B)	`outputs/v9_baseline_ext_2/checkpoints/{track}_{model}_{apt}_seed{seed}/best.pt`	MLflow artifact 에도 저장
MLflow	experiment `v9-baseline-ext-2` (id=`230168135891700392`)	91 active (90 model + 1 aggregate_mean), 10 deleted
v9-05 결과	`report/version9/exp-expert/v9-05_baseline_ext_results.md` (revision 1)
v9-04 phase 종합	`report/version9/lab-leader/v9-04_phase_summary.md`	v9-01 recap 포함
v6 baseline	`report/version6/exp-expert/v6_0415_nf_baseline_results.md`	R1b / B0 / B1 / NHITS 원천
본 보고서	`report/version9/exp-expert/v9-06_baseline_ext_2_results.md`

11. 최종 판정 요약¶

H9-6a (Strict, PAPE ≤ 43 AND HR@1 ≥ 37): FAIL (6/6 모델 미충족).
H9-6a (v9-06 Watch, PAPE ≤ 46 AND HR@1 ≥ 30): SCINet 단독 PASS (PAPE 42.35, HR@1 34.48). VQ 후보 1순위 (통계 겸손 톤).
H9-6a (v9-05 Watch 병기, PAPE ≤ 43 OR HR@1 ≥ 37): SCINet / NBEATSx 2개 모델이 PAPE 단일축 PASS. Watch 정의 선택에 결론 robust (SCINet 양 정의 모두 PASS).
H9-6a (단일축 PAPE 점추정): NBEATSx 점추정 1위 (34.58, 95% CI [30.71, 38.46]). R1b (37.36) / N-HiTS (39.26) CI 중첩 — 통계 비유의, "대체·갱신" 주장 금지. VQ 후보 2순위.
H9-6b (SCINet Track B 내 상대 우위, 분모 ETSformer 제외 2모델): SUPPORTED (SCINet 이 Pyraformer/Crossformer 대비 전 4축 최선, 부분 근거).
H9-6c (TSLib Transformer variants FAIL 재현): PARTIAL (2/3, ETSformer 미검증) — Pyraformer + Crossformer FAIL 확인, ETSformer 는 TSLib ETSformer_EncDec.py:156 ≤5 line 패치 미시도로 SKIP. 원문 분모 3 → 2 축소는 denominator manipulation 약점 (critic Critical 1).
MLflow per-epoch 로깅 검증: 6 모델 × 샘플 전수 train_loss/val_loss n ≥ 1 확인 (§2.1). v9-05 Critical C1 재발 없음.
Wall-clock: 총 71.0분 (설계 예산 2–3h 의 59%). Track A 3종 모두 max_steps 한계 도달 (수렴 여부 미확인, P3 후속), Track B 3종 early_stop 정상.
VQ 후보 결정은 사용자 위임 (H9-6a Strict FAIL 기반 ADR-009 조항).

reporter 체인으로 넘긴다 (revision 1 완료, 1 revision cycle 만료).

12. Revision Log¶

Revision 1 (2026-04-25)¶

exp-critic 보고서 (report/exp-critic/v9-06_baseline_ext_2_critic.md) 의 Critical 1건 / Major 3건 / Minor 5건 반영. 재실험 없음. 주요 변경:

Critical 1 (H9-6c Denominator Manipulation): 판정 "SUPPORTED (2/2)" → "PARTIAL (2/3, ETSformer 미검증)". ETSformer SKIP 이 TSLib ETSformer_EncDec.py:156 ≤5 line device fix 시도 미기록 약점임을 §1.2 / §4.3 / §9.2 #1 에 자기-인정. P2 후속 조치 등록. 누적 "5/5 FAIL" 표현 → "평가된 5/5 FAIL + ETSformer 미검증 1건" 으로 수정.
Major 1 (Watch 정의 사후성): §4 최상단에 v9-05 Watch (OR, 43/37) 와 v9-06 Watch (AND, 46/30) 정의 차이 명시. 46/30 정량 근거 부재 자기-인정, §9.2 #5 한계 기록. v9-05 Watch 병기 재판정 §4.1.2 신설 — SCINet 은 양 정의 모두 PASS, NBEATSx 는 v9-05 OR 정의로 PAPE 단일축 PASS, Crossformer 는 boundary (§4.1.5).
Major 2 (NBEATSx 통계 비유의): §4.1.3 신설 — 95% CI [30.71, 38.46] 이 R1b (37.36) / N-HiTS (39.26) 모두 포함, 1-sample t-test p ≈ 0.15 (n=15) / p ≈ 0.44 (seed=42 n=5). "R1b / N-HiTS 갱신" 표현 금지, "점추정 1위, 실무 가치 있는 baseline" 으로 대체. §5.2 랭킹, §6.2, §8.2, §9.1 #1, §9.2 #4, §9.2 #6, §11 전수 교정.
Major 3 (Apt51 Cherry-picking 재발): §6.1 / §8.1 에 Apt51 HR@1 spike 가 TSMixer 52.86 / TiDE 52.86 / Crossformer 44.29 등 비-hierarchical 모델에서도 관찰됨을 반증으로 제시. "hierarchical 구조 정합" 해석 삭제, "Apt51 은 전 모델 HR@1 +16%p spike 가구 (데이터 특성)" 로 귀속. 사후 가설 재등록 필요성 §9.3 P4 에 등록.
Minor 1 (Crossformer Watch nuance): §4.1.5 신설 — PAPE 44.45 는 v9-05 Watch 43 대비 +1.45%p 로 seed std 범위 내 boundary FAIL 임을 기록.
Minor 2 (문헌 지지 tier): §6.1 SCINet 에 HDT AAAI 2024 (유사 구조 1편 근거), §6.2 NBEATSx 에 VQ-TR (basis-expansion quantization 1편 근거) 추가.
Minor 3 (max_steps 한계): §7.3 / §9.3 P3 에 NBEATSx/TSMixer/TiDE 모두 max_steps=500 도달, 수렴 전 중단 가능성. max_steps=1000 재실험 후속 조치 등록.
Minor 4 (SCINet wall-clock breakdown): §7.2 에 per-epoch ≈ 6.7s, per-batch ≈ 80ms, SCI-Block depth 누적 해석 추가.
Minor 5 (H9-6b 분모): §4.2 / §0 Executive / §11 에 "분모 ETSformer 미포함 (2모델)" 명시.

불변 사항 유지: H9-6a Strict FAIL, SCINet v9-06 Watch PASS, VQ 후보 SCINet / NBEATSx 2종, per-epoch 로깅 검증 완료.

금지 사항 준수: 재실험 / 새 run / 하이퍼 튜닝 없음. summary.csv 90 records 외 수치 추가 없음. ETSformer 강행 없음.