Source: report/version9/reporter/v9-05_baseline_ext_summary.md

v9-05 Baseline Extension — Phase 종합 요약¶

0. Executive Summary¶

H9-5a 판정: FAIL. NeuralForecast 3종 (Autoformer / Informer / FEDformer) 모두 5-apt × 3-seed 평균 기준 PAPE ≤ 43% AND HR@1 ≥ 37% 양축 게이팅을 미충족. 3종 중 상대 최선은 FEDformer (PAPE 52.04, HR@1 27.05, MSE 0.600) 이나 gating 절대 기준에서 각각 −9.04%p / −9.95%p 부족.
H9-5b (VQ 후보 존재) 자동 미충족. v10 이후 VQ 재시도를 위한 "DLinear 대체 backbone 후보"는 본 phase 실행 범위(NF 1차 3종) 에서 확보되지 않음.
FEDformer × Apt51 단일 가구 HR@1 = 41.90% — NF 3종 내 유일한 HR@1 ≥ 37 임계 초과 조합이나, 동일 가구의 Chronos HR@1=69.04 / B1 HR@1=69.95 대비 −27%p 격차이므로 가구 learnability 신호로 해석. 사전 등록되지 않은 사후 가설 (post-hoc speculation) 로만 기록.
Wall-clock: 설계 예산(2–3h) 초과 없음. 전체 45 run 53.8분. 단 per-epoch loss 로깅 부재로 수렴 도달 여부 (early_stop vs max_steps 한계) 는 판별 불가.
사용자 결정 필요 사항 3건 (§8): (1) TSLib 2차 착수 여부, (2) 다음 phase 방향 (A/B/C 중 선택), (3) 후속 phase P1 강제사항 (Lightning callback per-epoch 로깅).

1. 실험 배경 및 범위¶

1.1 배경¶

v6~v9 phase 전반에 걸쳐 DLinear+VQ 결합 (ADR-009, archived) 이 codebook utilization 4% 수준의 near-collapse 를 기록하였고, v9 Stage 2 의 Chronos-Bolt LoRA 역시 3-seed PAPE 44.953 ± 0.054 로 R1b (PAPE 37.36) 대체에 실패했다 (v9-04 §2, phase closure). v10 이후 VQ 재시도를 위해서는 DLinear 를 대체할 VQ-친화 backbone 후보 를 먼저 확보해야 한다는 문제 설정에서 본 extension phase 가 설계됐다.

1.2 범위¶

1차 실행 대상 (본 phase): NeuralForecast Autoformer / Informer / FEDformer 3종, EC50 5가구 (Apt6/15/30/51/88), seed {42, 7, 123} 3-seed, 총 45 run.
2차 대상 (설계만 기록, 실행 없음): TSLib ETSformer / Pyraformer / Crossformer / SCINet 4종. 본 phase 결과 확인 후 사용자 결정에 위임 (설계서 §2.2, §6.3).
중복 제외 (재인용만 수행): TFT / N-HiTS / TimesNet 은 v6 NF-Baseline experiment 수치를 §3 비교 표에 병합, 재학습 없음.
VQ 결합·FL·KD 는 본 설계 범위 외. 순수 예측 성능 벤치마크만 수행.

1.3 구현 조건¶

스크립트: experiments/forecasting/v9_0424_baseline_extension.py
공통 하이퍼파라미터: input_size=96, horizon=24, max_steps=500, early_stop_patience=50, val_check=50, lr=1e-3, scaler=standard — v6 NF baseline 과 동일 (직접 비교 가능성 유지).
NF 기본 구조값 (hidden_size, n_head, layers, dropout, modes 등) 은 override 없이 유지.
하드웨어: NVIDIA RTX 5070 Ti 단일 GPU 순차 실행.
MLflow experiment: v9-baseline-ext (id=766380978402830870), active 46 run (45 model + 1 aggregate_mean) + deleted 3 (중복 초기 시도 tombstone).

2. 결과 요약 테이블¶

2.1 v9-05 신규 3종 — 5-apt × 3-seed 평균 (n=15)¶

Model	MSE	MAE	MAPE (%)	sMAPE (%)	PAPE (%)	HR@1 (%)	HR@2 (%)	PAPE≤43?	HR@1≥37?	판정
Autoformer	0.660 ± 0.434	0.519 ± 0.204	67.24 ± 9.04	46.07 ± 4.30	52.91 ± 6.79	15.33 ± 4.16	23.52 ± 6.22	✗	✗	FAIL
Informer	0.648 ± 0.422	0.511 ± 0.206	56.74 ± 9.93	44.21 ± 2.92	53.40 ± 5.67	20.67 ± 5.34	32.48 ± 8.11	✗	✗	FAIL
FEDformer	0.600 ± 0.392	0.492 ± 0.189	65.07 ± 9.73	44.55 ± 5.32	52.04 ± 6.29	27.05 ± 9.77	40.29 ± 14.70	✗	✗	FAIL

주: ± 는 15-run sample std. 가구 간 편차가 dominant (3-seed 내부 std 는 §5 참조).

2.2 v6/v9 기존 baseline 재인용 병합 (seed=42 단일, n=5)¶

Source	Model	MSE	PAPE (%)	HR@1 (%)	HR@2 (%)	Gating
v9-05	Autoformer	0.660	52.91	15.33	23.52	FAIL
v9-05	Informer	0.648	53.40	20.67	32.48	FAIL
v9-05	FEDformer	0.600	52.04	27.05	40.29	FAIL
v9-01 / v6	Chronos-Bolt (zero-shot)	0.555	44.98	37.71	48.56	—
v9-01 / v6	TimeMoE-50M	0.549	43.38	32.93	42.88	—
v9-01 / v6	moirai-1.1-R-small	0.641	46.61	17.73	27.86	—
v9-01 / v6	PatchTST	0.572	48.41	21.14	30.00	—
v9-01 / v6	iTransformer	0.593	51.00	19.43	27.14	—
v9-01 / v6	TimesNet	0.594	48.90	26.57	38.29	—
v9-01 / v6	NHITS	0.648	39.26	22.29	31.71	—
v9-01 / v6	TFT	0.719	50.58	15.14	25.14	—
v9-01 / v6	B0 (DLinear Local)	0.515	42.51	34.58	46.60	—
v9-01 / v6	B1 (DLinear FedAvg)	0.505	43.64	36.92	49.39	—
v9-01 / v6	R1b (FedPM+DLinear)	0.629	37.36	21.27	32.42	PAPE Pass

Footnote: - v9-05 는 n=15 (5 apt × 3 seed), v9-01/v6 baseline 은 n=5 (5 apt × seed=42 단일). seed 집합 비대칭 — §2.3 seed=42 단일 보조 비교에서 순위 robust 함 확인 (exp-expert §4.2). - v9-05 의 seed=42 single-filter 로 재계산 시 Autoformer PAPE 54.31 / Informer 52.17 / FEDformer 52.16 — 모델 레벨 순위 robust. - 본 phase 종료 시점 기준 v6 R1b (PAPE 37.36) 가 여전히 유일한 PAPE ≤ 43 Pass 모델 이며 v9-05 3종은 이를 대체하지 못함.

2.3 v6/v9 baseline 대비 순위 (5-apt 평균, 3-seed mean 기준)¶

PAPE (lower=better) 순위: R1b 37.36 ≺ NHITS 39.26 ≺ B0 42.51 ≺ TimeMoE 43.38 ≺ B1 43.64 ≺ Chronos 44.98 ≺ moirai 46.61 ≺ PatchTST 48.41 ≺ TimesNet 48.90 ≺ TFT 50.58 ≺ iTransformer 51.00 ≺ FEDformer 52.04 ≺ Autoformer 52.91 ≺ Informer 53.40 (v9-05 3종 = 12–14위, 최하위 구간).
HR@1 (higher=better) 순위: Chronos 37.71 ≻ B1 36.92 ≻ B0 34.58 ≻ TimeMoE 32.93 ≻ FEDformer 27.05 (v9-05 5위) ≻ TimesNet 26.57 ≻ NHITS 22.29 ≻ R1b 21.27 ≻ PatchTST 21.14 ≻ Informer 20.67 (v9-05) ≻ iTransformer 19.43 ≻ moirai 17.73 ≻ Autoformer 15.33 (v9-05) ≻ TFT 15.14.
해석: v9-05 신규 3종은 PAPE 축에서 전 baseline 중 최하위 구간. HR@1 축에서 FEDformer 가 TimesNet·NHITS·PatchTST·iTransformer·TFT 등을 앞지르나, 절대치가 gating 37% 을 10%p 하회하여 "상대 우위" 이상의 주장 불가.

3. H9-5a Gating 판정 근거¶

3.1 설계서 §1.4 기준 판정¶

조건	기준	충족 여부
Pass	1개 이상 모델이 (PAPE ≤ 43 AND HR@1 ≥ 37), 5-apt × 3-seed 평균	미충족
Watch	1개 이상이 단일 축만 달성	미충족
Fail	전 모델 두 축 모두 미달	충족

3.2 세부 gap 분석¶

Model	PAPE	PAPE≤43 gap	HR@1	HR@1≥37 gap
Autoformer	52.91	−9.91%p 초과	15.33	−21.67%p 부족
Informer	53.40	−10.40%p 초과	20.67	−16.33%p 부족
FEDformer	52.04	−9.04%p 초과	27.05	−9.95%p 부족

3.3 Gating robustness¶

FAIL 판정은 test metric (summary.csv 45 records) 만으로 독립 성립 — §6 에 기록된 MLflow per-epoch 로깅 누락과 무관.
HR@1 seed std (4–8%p) 가 PAPE seed std (0.82–1.82%p) 대비 크나, gating 과의 gap (10–22%p) 이 noise band 를 크게 상회하므로 판정 안정성 확보.
seed=42 단일 filter 보조 비교 (exp-expert §4.2) 에서도 Autoformer 54.31 / Informer 52.17 / FEDformer 52.16 PAPE 로 모델 레벨 순위 유지 — seed 비대칭 robust.

3.4 H9-5b 자동 미충족¶

설계서 §6.2 는 H9-5a Pass/Watch 모델에 대한 VQ 삽입 적합성 정성 판정을 전제로 하므로, H9-5a FAIL 귀결 시 자동적으로 VQ 후보 부재 로 귀결됨. v10 이후 VQ 재시도를 위한 DLinear 대체 backbone 후보는 본 phase 실행 범위에서 확보되지 않음.

4. 주요 관찰¶

4.1 FEDformer 3종 내 상대 최선 — gating 통과 아님¶

FEDformer 가 MSE / PAPE / HR@1 / HR@2 / PAPE seed std 전 축에서 3종 중 최선. 다만 5-apt × 3-seed 평균 절대치에서 모든 축이 gating 미달. 이는 backbone 선택 비교 근거가 아니라 "3종 중 그나마 덜 나쁜 것" 수준의 상대 관찰에 한정.

축	FEDformer	2위	3위
PAPE (lower)	52.04	Autoformer 52.91	Informer 53.40
HR@1 (higher)	27.05	Informer 20.67	Autoformer 15.33
HR@2 (higher)	40.29	Informer 32.48	Autoformer 23.52
MSE (lower)	0.600	Informer 0.648	Autoformer 0.660
PAPE seed std	0.82%p	Informer 1.78	Autoformer 1.82

4.2 FEDformer × Apt51 단일 관찰 (사후 가설 수준)¶

FEDformer × Apt51 조합의 3-seed mean HR@1 = 41.90% (HR@2 = 65.71%) 로 NF 3종 내부에서 유일한 HR@1 ≥ 37 임계 초과 조합. 그러나:

동 가구의 Chronos HR@1 = 69.04%, B1 HR@1 = 69.95% 와 비교 시 FEDformer 41.90 은 −27%p 격차.
Apt51 은 v9-01 §4 에서 이미 "모든 모델에서 HR 이 상대적으로 높은 가구" 로 관찰됨 — FEDformer 특이적 강점이 아니라 가구 자체의 learnability 신호.
설계서 §1.3 가설에 "FEDformer 가 특정 가구에서 특히 잘 작동" 은 사전 등록되지 않았으며, "주기성 × Fourier attention 정합" 설명은 사후 가설 (post-hoc speculation). 본 결과만으로 지지되지 않음.
5-apt 평균 FAIL 판정은 이 Apt51 단독 관찰에 의해 뒤집히지 않음.

4.3 Wall-clock — 예산 초과 없음, 수렴 도달 여부 판별 불가¶

전체 45 run 53.8분 완료. 설계 예상 2–3h 하한의 30–45% 수준.
모델별 평균 per-run 시간: FEDformer 94.3s / Autoformer 81.7s / Informer 39.0s.
FEDformer / Autoformer 비율 = 1.15× (설계 예상 1.5–2× 하회).
FEDformer seed std 0.6s, Autoformer 1.7s, Informer 0.6s — 3-seed 간 wall-clock 변동이 모델당 1–2% 이내로 극히 작다.
해석 제약: "빠르다 / distil 효율적" 해석은 각 모델이 max_steps=500 한계에서 종료했는지 early_stop 으로 조기 종료했는지 판별되어야 가능. per-epoch loss 로깅 부재로 검증 불가 (§6 참조). Seed 간 wall-clock std 극소 관찰은 오히려 "3-seed 모두 동일 종료 조건 (max_steps 도달 가능성)" 을 시사.
결론 어휘: "설계 예산 초과 없음" 으로 한정. 구조적 효율 해석은 철회.

4.4 가구별 편차 패턴¶

PAPE seed std (apt 내부 3-seed std 평균):

Model	Apt6	Apt15	Apt30	Apt51	Apt88	mean
Autoformer	0.91	1.58	3.86	2.08	0.66	1.82
Informer	2.18	0.37	0.98	1.34	4.05	1.78
FEDformer	1.52	0.42	0.40	1.48	0.27	0.82

FEDformer 가 재현성 측면에서 가장 안정 (mean 0.82%p).
Autoformer Apt30 3.86%p / Informer Apt88 4.05%p 등 특정 apt × model 조합에서 seed std 급증 — apt-level 해석 시 주의.

5. Critic 지적 반영 내역 (Revision 1)¶

exp-critic 판정 Revision-Required, exp-expert revision 1 (2026-04-24) 에서 Critical 2건 + Major 4건 + Minor 5건 전량 반영. 재실험 없음.

5.1 Critical 수정¶

#	지적 사항	반영 위치	요약
C1	MLflow per-epoch 로깅 전량 누락 — CLAUDE.md 강제 규약 위반	결과 §2.0, §8.2#1, §8.3 P1	45 run 중 단 한 건도 `train_loss` / `val_loss` / `val_mse` per-step 로깅 없음. Lightning callback 부재 원인. FAIL 판정은 test metric 만으로 robust 하나, 수렴 해석 주장 (wall-clock, distil 효과, seed non-determinism) 근거 약화. 후속 phase P1 강제.
C2	한계 셀프-인정 완결성 결함	결과 §8.2 최상단	기존 5개 한계에 "Per-epoch train/val loss 미로깅 — 수렴 판별 불가" 를 #1 로 신규 추가.

5.2 Major 수정¶

#	지적 사항	반영 내역
M1	FEDformer × Apt51 post-hoc cherry-picking 교정	§5.2 "주기성 × Fourier attention 정합" 해석 삭제. Chronos/B1 의 Apt51 HR@1 대비 −27%p 격차 명시. "경쟁력" 어휘 제거 → "단일 가구 임계 근접, 사후 가설" 재기술. §8.1 관찰 2 동일 처리.
M2	Wall-clock 1.15× "빠르다" 치환 제거	§7.2 "R1 완화" → "예산 초과 없음" 한정. Seed std 극소 (0.6s) 가 max_steps=500 한계 도달 신호 가능성 명시. §8.1 관찰 3 Informer distil 해석 축소.
M3	seed 비대칭 보조 비교 승격	§4.2 seed=42 단일 subset 재계산 테이블 신설 (Autoformer 54.31 / Informer 52.17 / FEDformer 52.16 PAPE). 모델 레벨 순위 robust 확인.
M4	MLflow 정리 "이미 목표 상태" 추측 제거	§2.2 "orchestrator 또는 직전 세션" 제거 → "본 세션 진입 시점에 이미 deleted lifecycle, 전환 주체·시점 확인 불가" 로 교체. deleted 3건 start_time/end_time 테이블 추가.

5.3 Minor 수정¶

§9 산출물 인덱스에 summary_smoke.csv 추가
§1.1 seed 목록에 v9-02 설계 사전 등록 주석
§8.1 관찰 4 "MovingAvg smoothing" 을 "가설 — ablation 미수행" 한정
§4 NHITS row v6 MLflow 근거 주석
§1.1 v9-01 "predict_len=1h" 오기 정정 주석

6. 한계 및 재현성¶

6.1 본 보고서 결과의 불완전성¶

[최중요] Per-epoch train/val loss 미로깅 — 수렴 판별 불가. experiments/forecasting/v9_0424_baseline_extension.py 가 설계서 §4.3 per-step metrics spec 을 구현하지 않았음. Lightning on_train_epoch_end callback 부재로 NF trainer loss history 가 MLflow 에 re-emit 되지 않음. MlflowClient().get_metric_history(run_id, "train_loss") 전 run 에서 empty. CLAUDE.md "Training loss → mlflow.log_metric(step=) per epoch/round" 규약 및 프로젝트 memory feedback_mlflow_full_logging 위반. 결과적 제약: wall-clock 해석 (§4.3), Informer distil 효과 해석, 3-seed 수렴 동질성 주장의 근거 모두 약화. 단 H9-5a FAIL 판정 자체는 test metric 만으로 robust.
3-seed 로 HR 축 noise 미해소 가능성. HR@1 seed std 가 4~8%p 구간으로 PAPE std 의 ~3배. 다만 gating gap (10–22%p) 이 noise 범위 (5%p) 상회 → 판정 robustness 는 확보.
v6 baseline 과 seed 정합 불일치. v9-01 recap baseline seed=42 단일, v9-05 는 3-seed mean. §2.3 보조 비교로 robust 함 확인. apt-level 상대 우위는 seed 선택에 따라 변동 가능 (Autoformer Apt30 std 3.86%p 사례).
Non-determinism. NF random_seed 는 data shuffle + init 만 고정, Lightning 내부 CUDA non-determinism 잔존 (설계서 R4). 정식 결정론 검증은 수행하지 않음.
MAPE 이상치. Autoformer Apt15 MAPE 80.08 ± 3.96, FEDformer Apt15 MAPE 75.35 ± 0.68 등 MAPE 가 75–80% 구간. Apt15 의 소비값 작은 구간 + eps=1e-8 base MAPE 분모 불안정 → 수치 팽창. MAPE 해석은 분모 효과 주의.
설계서 §6.1 3-tier gating 미적용. 본 보고서는 §1.4 의 2축 (PAPE AND HR@1) gating 을 primary 로 사용. §6.1 3-tier 적용해도 모든 모델이 모든 tier 에서 Fail 임 확인.

6.2 재현성¶

원시 결과: outputs/v9_baseline_ext/summary.csv (45 records).
재현 스크립트: outputs/v9_baseline_ext/_aggregate_analysis.py (재학습 없음, 집계 전용).
Smoke 결과: outputs/v9_baseline_ext/summary_smoke.csv (1 record, Autoformer_Apt6_seed42, max_steps=50).
MLflow experiment v9-baseline-ext (id=766380978402830870) 에 predictions artifact (y_true / y_pred npy, shape=(N_window, 24)) 및 per-run metric JSON 전량 저장.
Critic 재현 검증: summary.csv 기반 §2 / §4 / §5 테이블 모든 수치 ±0.001 이내 재생성 가능 (exp-critic §1 확인).

7. 참조 파일 경로¶

유형	경로
설계서	`report/version9/lab-leader/v9-05_baseline_extension.md`
exp-expert 결과 (revision 1)	`report/version9/exp-expert/v9-05_baseline_ext_results.md`
exp-critic 판정	`report/version9/exp-critic/v9-05_baseline_ext_critic.md`
v9 phase summary (선행)	`report/version9/lab-leader/v9-04_phase_summary.md`
본 보고서	`report/version9/reporter/v9-05_baseline_ext_summary.md`
학습 스크립트	`experiments/forecasting/v9_0424_baseline_extension.py`
원시 결과	`outputs/v9_baseline_ext/summary.csv`
Smoke 결과	`outputs/v9_baseline_ext/summary_smoke.csv`
집계 재현 스크립트	`outputs/v9_baseline_ext/_aggregate_analysis.py`
메트릭 JSON	`outputs/v9_baseline_ext/metrics/*.json` (45 파일)
MLflow	experiment `v9-baseline-ext` (id=766380978402830870), active 46 + deleted 3

8. Action Items / 사용자 결정 필요 사항¶

설계서 §1.4 및 §6.3 규약상, H9-5a FAIL 귀결 시 후속 방향은 사용자 결정 사항이다. 본 보고서는 옵션 선택을 강제하지 않으며, 판단 자료만 정리한다.

8.1 결정 #1 — TSLib 2차 착수 여부¶

설계서 §2.2 는 TSLib ETSformer / Pyraformer / Crossformer / SCINet 4종을 2차 대상으로 설계만 기록하고 실행은 사용자 결정으로 위임. 본 phase 결과 (NF 1차 3종 전수 FAIL) 를 감안한 판단 자료:

비용 추정: 본 1차 3종 wall-clock 53.8분 기준, TSLib 4종 × 45 run 은 유사 order (1–2h). 실제 주요 비용은 TSLib configs Namespace 어댑터 구현 및 학습 루프 재작성 (설계서 §2.2 구조적 위험).
1차 FAIL 시사점: Decomposition (Autoformer) / ProbSparse (Informer) / Frequency (FEDformer) 계열이 5-apt 평균에서 모두 FAIL. TSLib 4종 중 기계학습적으로 1차 3종과 강하게 차별되는 카테고리는 SCINet (non-attention) 정도. Crossformer 는 설계서 §2.2 에서 "단변량에서 무력화 가능성" 지적 존재. FAIL 반복 리스크.
맥락: v6 R1b (PAPE 37.36) 가 여전히 유일한 PAPE ≤ 43 Pass 모델인 구조가 v9 phase 전반에서 재확인됨.

8.2 결정 #2 — 다음 phase 방향¶

다음 3가지 옵션 중 사용자 판단 필요:

옵션 A: TSLib 2차 (ETSformer / Pyraformer / Crossformer / SCINet) 착수 → DLinear 대체 후보 탐색 지속. 설계서 §2.2 구조적 위험 재검토 필요. Fail 결과 감안 시 효용 재검토 권장.
옵션 B: VQ track 해산 / DLinear 유지 → 다른 연구 축으로 전환. 주의: VQ 의 가치는 "discrete representation 의 FL client 간 효율적 aggregation" (v6 FeDPM 계열 프로토콜) 측면에서 backbone 정확도와 독립된 논증 축. v9-05 결과 (backbone 정확도 FAIL) 는 VQ track 해산의 단독 근거로 사용되어서는 안 됨. 별도 ADR 근거 필요.
옵션 C: 본 NF 3종에서 hyperparameter 재탐색 (max_steps↑, input_size↑ 등). 3-seed 전수 FAIL (gap 9–22%p) 을 hyperparameter 탐색으로 회복할 수 있는지에 대한 사전 근거는 없으나, per-epoch loss 로깅 이후라면 수렴 상태 판별 후 탐색 가능.

8.3 결정 #3 — 후속 phase P1 강제사항 (재발 방지)¶

CLAUDE.md "MLflow Logging Rules — Training loss → mlflow.log_metric(step=) per epoch/round" 및 프로젝트 memory feedback_mlflow_full_logging 재점검:

[P1 필수] 다음 phase 스크립트 (TSLib 2차 또는 v10 VQ 재시도 모두 해당) 에서 Lightning on_train_epoch_end callback 을 필수로 부착하여 train_loss / val_loss / val_mse 를 mlflow.log_metric(..., step=epoch) 으로 재-emit.
구체 구현 패턴 (a) pytorch_lightning.loggers.MLFlowLogger 를 NF trainer 에 inject, 또는 (b) mlflow.pytorch.autolog(log_every_n_epoch=1) 을 run 시작 직후 호출 — 두 방식의 NF 내부 trainer 충돌 여부를 engineer 가 docs/reference/project_state/v9_baseline_ext_lessons.md 에 사전 문서화.
[P2 권고] 사전 가설 등록 강화 — "모델 A 가 가구 X 에서 특히 잘 작동할 것" 같은 apt-specific 예측은 설계서 가설 항목에 사전 등록된 경우에만 post-hoc 해석 허용 (본 phase FEDformer × Apt51 사례 재발 방지).
[P3 권고] 집계 스크립트 기본 seed=42 subset 병기 — v6 baseline 과의 seed 비대칭 표시 누락 방지.

최종 판정¶

H9-5a: FAIL (3 모델 × 5-apt × 3-seed 평균 기준 PAPE ≤ 43 AND HR@1 ≥ 37 미충족).
H9-5b (VQ 후보 존재): 자동 미충족 (전제 H9-5a Pass/Watch 부재).
상대 우위: FEDformer 가 3종 중 전 축 최선. "경쟁력" 이 아니라 "3종 내 상대 최선" 수준.
대체 판정 (설계서 §6.3): TSLib 2차 착수 여부 및 후속 phase 방향은 사용자 결정 사항.
본 phase status: exp-critic Revision-Required 판정 → exp-expert revision 1 에서 Critical 2 + Major 4 + Minor 5 전량 반영 완료. 상류 gate 통과. 재실험 없음.
후속 phase 진입 시 P1 강제사항: Lightning on_train_epoch_end callback 으로 per-epoch loss MLflow 로깅 필수.