콘텐츠로 이동

Source: report/version9/reporter/v9-05_baseline_ext_summary.md

v9-05 Baseline Extension — Phase 종합 요약

0. Executive Summary

  • H9-5a 판정: FAIL. NeuralForecast 3종 (Autoformer / Informer / FEDformer) 모두 5-apt × 3-seed 평균 기준 PAPE ≤ 43% AND HR@1 ≥ 37% 양축 게이팅을 미충족. 3종 중 상대 최선은 FEDformer (PAPE 52.04, HR@1 27.05, MSE 0.600) 이나 gating 절대 기준에서 각각 −9.04%p / −9.95%p 부족.
  • H9-5b (VQ 후보 존재) 자동 미충족. v10 이후 VQ 재시도를 위한 "DLinear 대체 backbone 후보"는 본 phase 실행 범위(NF 1차 3종) 에서 확보되지 않음.
  • FEDformer × Apt51 단일 가구 HR@1 = 41.90% — NF 3종 내 유일한 HR@1 ≥ 37 임계 초과 조합이나, 동일 가구의 Chronos HR@1=69.04 / B1 HR@1=69.95 대비 −27%p 격차이므로 가구 learnability 신호로 해석. 사전 등록되지 않은 사후 가설 (post-hoc speculation) 로만 기록.
  • Wall-clock: 설계 예산(2–3h) 초과 없음. 전체 45 run 53.8분. 단 per-epoch loss 로깅 부재로 수렴 도달 여부 (early_stop vs max_steps 한계) 는 판별 불가.
  • 사용자 결정 필요 사항 3건 (§8): (1) TSLib 2차 착수 여부, (2) 다음 phase 방향 (A/B/C 중 선택), (3) 후속 phase P1 강제사항 (Lightning callback per-epoch 로깅).

1. 실험 배경 및 범위

1.1 배경

v6~v9 phase 전반에 걸쳐 DLinear+VQ 결합 (ADR-009, archived) 이 codebook utilization 4% 수준의 near-collapse 를 기록하였고, v9 Stage 2 의 Chronos-Bolt LoRA 역시 3-seed PAPE 44.953 ± 0.054 로 R1b (PAPE 37.36) 대체에 실패했다 (v9-04 §2, phase closure). v10 이후 VQ 재시도를 위해서는 DLinear 를 대체할 VQ-친화 backbone 후보 를 먼저 확보해야 한다는 문제 설정에서 본 extension phase 가 설계됐다.

1.2 범위

  • 1차 실행 대상 (본 phase): NeuralForecast Autoformer / Informer / FEDformer 3종, EC50 5가구 (Apt6/15/30/51/88), seed {42, 7, 123} 3-seed, 총 45 run.
  • 2차 대상 (설계만 기록, 실행 없음): TSLib ETSformer / Pyraformer / Crossformer / SCINet 4종. 본 phase 결과 확인 후 사용자 결정에 위임 (설계서 §2.2, §6.3).
  • 중복 제외 (재인용만 수행): TFT / N-HiTS / TimesNet 은 v6 NF-Baseline experiment 수치를 §3 비교 표에 병합, 재학습 없음.
  • VQ 결합·FL·KD 는 본 설계 범위 외. 순수 예측 성능 벤치마크만 수행.

1.3 구현 조건

  • 스크립트: experiments/forecasting/v9_0424_baseline_extension.py
  • 공통 하이퍼파라미터: input_size=96, horizon=24, max_steps=500, early_stop_patience=50, val_check=50, lr=1e-3, scaler=standard — v6 NF baseline 과 동일 (직접 비교 가능성 유지).
  • NF 기본 구조값 (hidden_size, n_head, layers, dropout, modes 등) 은 override 없이 유지.
  • 하드웨어: NVIDIA RTX 5070 Ti 단일 GPU 순차 실행.
  • MLflow experiment: v9-baseline-ext (id=766380978402830870), active 46 run (45 model + 1 aggregate_mean) + deleted 3 (중복 초기 시도 tombstone).

2. 결과 요약 테이블

2.1 v9-05 신규 3종 — 5-apt × 3-seed 평균 (n=15)

Model MSE MAE MAPE (%) sMAPE (%) PAPE (%) HR@1 (%) HR@2 (%) PAPE≤43? HR@1≥37? 판정
Autoformer 0.660 ± 0.434 0.519 ± 0.204 67.24 ± 9.04 46.07 ± 4.30 52.91 ± 6.79 15.33 ± 4.16 23.52 ± 6.22 FAIL
Informer 0.648 ± 0.422 0.511 ± 0.206 56.74 ± 9.93 44.21 ± 2.92 53.40 ± 5.67 20.67 ± 5.34 32.48 ± 8.11 FAIL
FEDformer 0.600 ± 0.392 0.492 ± 0.189 65.07 ± 9.73 44.55 ± 5.32 52.04 ± 6.29 27.05 ± 9.77 40.29 ± 14.70 FAIL

주: ± 는 15-run sample std. 가구 간 편차가 dominant (3-seed 내부 std 는 §5 참조).

2.2 v6/v9 기존 baseline 재인용 병합 (seed=42 단일, n=5)

Source Model MSE PAPE (%) HR@1 (%) HR@2 (%) Gating
v9-05 Autoformer 0.660 52.91 15.33 23.52 FAIL
v9-05 Informer 0.648 53.40 20.67 32.48 FAIL
v9-05 FEDformer 0.600 52.04 27.05 40.29 FAIL
v9-01 / v6 Chronos-Bolt (zero-shot) 0.555 44.98 37.71 48.56
v9-01 / v6 TimeMoE-50M 0.549 43.38 32.93 42.88
v9-01 / v6 moirai-1.1-R-small 0.641 46.61 17.73 27.86
v9-01 / v6 PatchTST 0.572 48.41 21.14 30.00
v9-01 / v6 iTransformer 0.593 51.00 19.43 27.14
v9-01 / v6 TimesNet 0.594 48.90 26.57 38.29
v9-01 / v6 NHITS 0.648 39.26 22.29 31.71
v9-01 / v6 TFT 0.719 50.58 15.14 25.14
v9-01 / v6 B0 (DLinear Local) 0.515 42.51 34.58 46.60
v9-01 / v6 B1 (DLinear FedAvg) 0.505 43.64 36.92 49.39
v9-01 / v6 R1b (FedPM+DLinear) 0.629 37.36 21.27 32.42 PAPE Pass

Footnote: - v9-05 는 n=15 (5 apt × 3 seed), v9-01/v6 baseline 은 n=5 (5 apt × seed=42 단일). seed 집합 비대칭 — §2.3 seed=42 단일 보조 비교에서 순위 robust 함 확인 (exp-expert §4.2). - v9-05 의 seed=42 single-filter 로 재계산 시 Autoformer PAPE 54.31 / Informer 52.17 / FEDformer 52.16 — 모델 레벨 순위 robust. - 본 phase 종료 시점 기준 v6 R1b (PAPE 37.36) 가 여전히 유일한 PAPE ≤ 43 Pass 모델 이며 v9-05 3종은 이를 대체하지 못함.

2.3 v6/v9 baseline 대비 순위 (5-apt 평균, 3-seed mean 기준)

  • PAPE (lower=better) 순위: R1b 37.36 ≺ NHITS 39.26 ≺ B0 42.51 ≺ TimeMoE 43.38 ≺ B1 43.64 ≺ Chronos 44.98 ≺ moirai 46.61 ≺ PatchTST 48.41 ≺ TimesNet 48.90 ≺ TFT 50.58 ≺ iTransformer 51.00 ≺ FEDformer 52.04 ≺ Autoformer 52.91 ≺ Informer 53.40 (v9-05 3종 = 12–14위, 최하위 구간).
  • HR@1 (higher=better) 순위: Chronos 37.71 ≻ B1 36.92 ≻ B0 34.58 ≻ TimeMoE 32.93 ≻ FEDformer 27.05 (v9-05 5위) ≻ TimesNet 26.57 ≻ NHITS 22.29 ≻ R1b 21.27 ≻ PatchTST 21.14 ≻ Informer 20.67 (v9-05) ≻ iTransformer 19.43 ≻ moirai 17.73 ≻ Autoformer 15.33 (v9-05) ≻ TFT 15.14.
  • 해석: v9-05 신규 3종은 PAPE 축에서 전 baseline 중 최하위 구간. HR@1 축에서 FEDformer 가 TimesNet·NHITS·PatchTST·iTransformer·TFT 등을 앞지르나, 절대치가 gating 37% 을 10%p 하회하여 "상대 우위" 이상의 주장 불가.

3. H9-5a Gating 판정 근거

3.1 설계서 §1.4 기준 판정

조건 기준 충족 여부
Pass 1개 이상 모델이 (PAPE ≤ 43 AND HR@1 ≥ 37), 5-apt × 3-seed 평균 미충족
Watch 1개 이상이 단일 축만 달성 미충족
Fail 전 모델 두 축 모두 미달 충족

3.2 세부 gap 분석

Model PAPE PAPE≤43 gap HR@1 HR@1≥37 gap
Autoformer 52.91 −9.91%p 초과 15.33 −21.67%p 부족
Informer 53.40 −10.40%p 초과 20.67 −16.33%p 부족
FEDformer 52.04 −9.04%p 초과 27.05 −9.95%p 부족

3.3 Gating robustness

  • FAIL 판정은 test metric (summary.csv 45 records) 만으로 독립 성립 — §6 에 기록된 MLflow per-epoch 로깅 누락과 무관.
  • HR@1 seed std (4–8%p) 가 PAPE seed std (0.82–1.82%p) 대비 크나, gating 과의 gap (10–22%p) 이 noise band 를 크게 상회하므로 판정 안정성 확보.
  • seed=42 단일 filter 보조 비교 (exp-expert §4.2) 에서도 Autoformer 54.31 / Informer 52.17 / FEDformer 52.16 PAPE 로 모델 레벨 순위 유지 — seed 비대칭 robust.

3.4 H9-5b 자동 미충족

설계서 §6.2 는 H9-5a Pass/Watch 모델에 대한 VQ 삽입 적합성 정성 판정을 전제로 하므로, H9-5a FAIL 귀결 시 자동적으로 VQ 후보 부재 로 귀결됨. v10 이후 VQ 재시도를 위한 DLinear 대체 backbone 후보는 본 phase 실행 범위에서 확보되지 않음.


4. 주요 관찰

4.1 FEDformer 3종 내 상대 최선 — gating 통과 아님

FEDformer 가 MSE / PAPE / HR@1 / HR@2 / PAPE seed std 전 축에서 3종 중 최선. 다만 5-apt × 3-seed 평균 절대치에서 모든 축이 gating 미달. 이는 backbone 선택 비교 근거가 아니라 "3종 중 그나마 덜 나쁜 것" 수준의 상대 관찰에 한정.

FEDformer 2위 3위
PAPE (lower) 52.04 Autoformer 52.91 Informer 53.40
HR@1 (higher) 27.05 Informer 20.67 Autoformer 15.33
HR@2 (higher) 40.29 Informer 32.48 Autoformer 23.52
MSE (lower) 0.600 Informer 0.648 Autoformer 0.660
PAPE seed std 0.82%p Informer 1.78 Autoformer 1.82

4.2 FEDformer × Apt51 단일 관찰 (사후 가설 수준)

FEDformer × Apt51 조합의 3-seed mean HR@1 = 41.90% (HR@2 = 65.71%) 로 NF 3종 내부에서 유일한 HR@1 ≥ 37 임계 초과 조합. 그러나:

  • 동 가구의 Chronos HR@1 = 69.04%, B1 HR@1 = 69.95% 와 비교 시 FEDformer 41.90 은 −27%p 격차.
  • Apt51 은 v9-01 §4 에서 이미 "모든 모델에서 HR 이 상대적으로 높은 가구" 로 관찰됨 — FEDformer 특이적 강점이 아니라 가구 자체의 learnability 신호.
  • 설계서 §1.3 가설에 "FEDformer 가 특정 가구에서 특히 잘 작동" 은 사전 등록되지 않았으며, "주기성 × Fourier attention 정합" 설명은 사후 가설 (post-hoc speculation). 본 결과만으로 지지되지 않음.
  • 5-apt 평균 FAIL 판정은 이 Apt51 단독 관찰에 의해 뒤집히지 않음.

4.3 Wall-clock — 예산 초과 없음, 수렴 도달 여부 판별 불가

  • 전체 45 run 53.8분 완료. 설계 예상 2–3h 하한의 30–45% 수준.
  • 모델별 평균 per-run 시간: FEDformer 94.3s / Autoformer 81.7s / Informer 39.0s.
  • FEDformer / Autoformer 비율 = 1.15× (설계 예상 1.5–2× 하회).
  • FEDformer seed std 0.6s, Autoformer 1.7s, Informer 0.6s — 3-seed 간 wall-clock 변동이 모델당 1–2% 이내로 극히 작다.
  • 해석 제약: "빠르다 / distil 효율적" 해석은 각 모델이 max_steps=500 한계에서 종료했는지 early_stop 으로 조기 종료했는지 판별되어야 가능. per-epoch loss 로깅 부재로 검증 불가 (§6 참조). Seed 간 wall-clock std 극소 관찰은 오히려 "3-seed 모두 동일 종료 조건 (max_steps 도달 가능성)" 을 시사.
  • 결론 어휘: "설계 예산 초과 없음" 으로 한정. 구조적 효율 해석은 철회.

4.4 가구별 편차 패턴

PAPE seed std (apt 내부 3-seed std 평균):

Model Apt6 Apt15 Apt30 Apt51 Apt88 mean
Autoformer 0.91 1.58 3.86 2.08 0.66 1.82
Informer 2.18 0.37 0.98 1.34 4.05 1.78
FEDformer 1.52 0.42 0.40 1.48 0.27 0.82
  • FEDformer 가 재현성 측면에서 가장 안정 (mean 0.82%p).
  • Autoformer Apt30 3.86%p / Informer Apt88 4.05%p 등 특정 apt × model 조합에서 seed std 급증 — apt-level 해석 시 주의.

5. Critic 지적 반영 내역 (Revision 1)

exp-critic 판정 Revision-Required, exp-expert revision 1 (2026-04-24) 에서 Critical 2건 + Major 4건 + Minor 5건 전량 반영. 재실험 없음.

5.1 Critical 수정

# 지적 사항 반영 위치 요약
C1 MLflow per-epoch 로깅 전량 누락 — CLAUDE.md 강제 규약 위반 결과 §2.0, §8.2#1, §8.3 P1 45 run 중 단 한 건도 train_loss / val_loss / val_mse per-step 로깅 없음. Lightning callback 부재 원인. FAIL 판정은 test metric 만으로 robust 하나, 수렴 해석 주장 (wall-clock, distil 효과, seed non-determinism) 근거 약화. 후속 phase P1 강제.
C2 한계 셀프-인정 완결성 결함 결과 §8.2 최상단 기존 5개 한계에 "Per-epoch train/val loss 미로깅 — 수렴 판별 불가" 를 #1 로 신규 추가.

5.2 Major 수정

# 지적 사항 반영 내역
M1 FEDformer × Apt51 post-hoc cherry-picking 교정 §5.2 "주기성 × Fourier attention 정합" 해석 삭제. Chronos/B1 의 Apt51 HR@1 대비 −27%p 격차 명시. "경쟁력" 어휘 제거 → "단일 가구 임계 근접, 사후 가설" 재기술. §8.1 관찰 2 동일 처리.
M2 Wall-clock 1.15× "빠르다" 치환 제거 §7.2 "R1 완화" → "예산 초과 없음" 한정. Seed std 극소 (0.6s) 가 max_steps=500 한계 도달 신호 가능성 명시. §8.1 관찰 3 Informer distil 해석 축소.
M3 seed 비대칭 보조 비교 승격 §4.2 seed=42 단일 subset 재계산 테이블 신설 (Autoformer 54.31 / Informer 52.17 / FEDformer 52.16 PAPE). 모델 레벨 순위 robust 확인.
M4 MLflow 정리 "이미 목표 상태" 추측 제거 §2.2 "orchestrator 또는 직전 세션" 제거 → "본 세션 진입 시점에 이미 deleted lifecycle, 전환 주체·시점 확인 불가" 로 교체. deleted 3건 start_time/end_time 테이블 추가.

5.3 Minor 수정

  • §9 산출물 인덱스에 summary_smoke.csv 추가
  • §1.1 seed 목록에 v9-02 설계 사전 등록 주석
  • §8.1 관찰 4 "MovingAvg smoothing" 을 "가설 — ablation 미수행" 한정
  • §4 NHITS row v6 MLflow 근거 주석
  • §1.1 v9-01 "predict_len=1h" 오기 정정 주석

6. 한계 및 재현성

6.1 본 보고서 결과의 불완전성

  1. [최중요] Per-epoch train/val loss 미로깅 — 수렴 판별 불가. experiments/forecasting/v9_0424_baseline_extension.py 가 설계서 §4.3 per-step metrics spec 을 구현하지 않았음. Lightning on_train_epoch_end callback 부재로 NF trainer loss history 가 MLflow 에 re-emit 되지 않음. MlflowClient().get_metric_history(run_id, "train_loss") 전 run 에서 empty. CLAUDE.md "Training loss → mlflow.log_metric(step=) per epoch/round" 규약 및 프로젝트 memory feedback_mlflow_full_logging 위반. 결과적 제약: wall-clock 해석 (§4.3), Informer distil 효과 해석, 3-seed 수렴 동질성 주장의 근거 모두 약화. 단 H9-5a FAIL 판정 자체는 test metric 만으로 robust.
  2. 3-seed 로 HR 축 noise 미해소 가능성. HR@1 seed std 가 4~8%p 구간으로 PAPE std 의 ~3배. 다만 gating gap (10–22%p) 이 noise 범위 (5%p) 상회 → 판정 robustness 는 확보.
  3. v6 baseline 과 seed 정합 불일치. v9-01 recap baseline seed=42 단일, v9-05 는 3-seed mean. §2.3 보조 비교로 robust 함 확인. apt-level 상대 우위는 seed 선택에 따라 변동 가능 (Autoformer Apt30 std 3.86%p 사례).
  4. Non-determinism. NF random_seed 는 data shuffle + init 만 고정, Lightning 내부 CUDA non-determinism 잔존 (설계서 R4). 정식 결정론 검증은 수행하지 않음.
  5. MAPE 이상치. Autoformer Apt15 MAPE 80.08 ± 3.96, FEDformer Apt15 MAPE 75.35 ± 0.68 등 MAPE 가 75–80% 구간. Apt15 의 소비값 작은 구간 + eps=1e-8 base MAPE 분모 불안정 → 수치 팽창. MAPE 해석은 분모 효과 주의.
  6. 설계서 §6.1 3-tier gating 미적용. 본 보고서는 §1.4 의 2축 (PAPE AND HR@1) gating 을 primary 로 사용. §6.1 3-tier 적용해도 모든 모델이 모든 tier 에서 Fail 임 확인.

6.2 재현성

  • 원시 결과: outputs/v9_baseline_ext/summary.csv (45 records).
  • 재현 스크립트: outputs/v9_baseline_ext/_aggregate_analysis.py (재학습 없음, 집계 전용).
  • Smoke 결과: outputs/v9_baseline_ext/summary_smoke.csv (1 record, Autoformer_Apt6_seed42, max_steps=50).
  • MLflow experiment v9-baseline-ext (id=766380978402830870) 에 predictions artifact (y_true / y_pred npy, shape=(N_window, 24)) 및 per-run metric JSON 전량 저장.
  • Critic 재현 검증: summary.csv 기반 §2 / §4 / §5 테이블 모든 수치 ±0.001 이내 재생성 가능 (exp-critic §1 확인).

7. 참조 파일 경로

유형 경로
설계서 report/version9/lab-leader/v9-05_baseline_extension.md
exp-expert 결과 (revision 1) report/version9/exp-expert/v9-05_baseline_ext_results.md
exp-critic 판정 report/version9/exp-critic/v9-05_baseline_ext_critic.md
v9 phase summary (선행) report/version9/lab-leader/v9-04_phase_summary.md
본 보고서 report/version9/reporter/v9-05_baseline_ext_summary.md
학습 스크립트 experiments/forecasting/v9_0424_baseline_extension.py
원시 결과 outputs/v9_baseline_ext/summary.csv
Smoke 결과 outputs/v9_baseline_ext/summary_smoke.csv
집계 재현 스크립트 outputs/v9_baseline_ext/_aggregate_analysis.py
메트릭 JSON outputs/v9_baseline_ext/metrics/*.json (45 파일)
MLflow experiment v9-baseline-ext (id=766380978402830870), active 46 + deleted 3

8. Action Items / 사용자 결정 필요 사항

설계서 §1.4 및 §6.3 규약상, H9-5a FAIL 귀결 시 후속 방향은 사용자 결정 사항이다. 본 보고서는 옵션 선택을 강제하지 않으며, 판단 자료만 정리한다.

8.1 결정 #1 — TSLib 2차 착수 여부

설계서 §2.2 는 TSLib ETSformer / Pyraformer / Crossformer / SCINet 4종을 2차 대상으로 설계만 기록하고 실행은 사용자 결정으로 위임. 본 phase 결과 (NF 1차 3종 전수 FAIL) 를 감안한 판단 자료:

  • 비용 추정: 본 1차 3종 wall-clock 53.8분 기준, TSLib 4종 × 45 run 은 유사 order (1–2h). 실제 주요 비용은 TSLib configs Namespace 어댑터 구현 및 학습 루프 재작성 (설계서 §2.2 구조적 위험).
  • 1차 FAIL 시사점: Decomposition (Autoformer) / ProbSparse (Informer) / Frequency (FEDformer) 계열이 5-apt 평균에서 모두 FAIL. TSLib 4종 중 기계학습적으로 1차 3종과 강하게 차별되는 카테고리는 SCINet (non-attention) 정도. Crossformer 는 설계서 §2.2 에서 "단변량에서 무력화 가능성" 지적 존재. FAIL 반복 리스크.
  • 맥락: v6 R1b (PAPE 37.36) 가 여전히 유일한 PAPE ≤ 43 Pass 모델인 구조가 v9 phase 전반에서 재확인됨.

8.2 결정 #2 — 다음 phase 방향

다음 3가지 옵션 중 사용자 판단 필요:

  • 옵션 A: TSLib 2차 (ETSformer / Pyraformer / Crossformer / SCINet) 착수 → DLinear 대체 후보 탐색 지속. 설계서 §2.2 구조적 위험 재검토 필요. Fail 결과 감안 시 효용 재검토 권장.
  • 옵션 B: VQ track 해산 / DLinear 유지 → 다른 연구 축으로 전환. 주의: VQ 의 가치는 "discrete representation 의 FL client 간 효율적 aggregation" (v6 FeDPM 계열 프로토콜) 측면에서 backbone 정확도와 독립된 논증 축. v9-05 결과 (backbone 정확도 FAIL) 는 VQ track 해산의 단독 근거로 사용되어서는 안 됨. 별도 ADR 근거 필요.
  • 옵션 C: 본 NF 3종에서 hyperparameter 재탐색 (max_steps↑, input_size↑ 등). 3-seed 전수 FAIL (gap 9–22%p) 을 hyperparameter 탐색으로 회복할 수 있는지에 대한 사전 근거는 없으나, per-epoch loss 로깅 이후라면 수렴 상태 판별 후 탐색 가능.

8.3 결정 #3 — 후속 phase P1 강제사항 (재발 방지)

CLAUDE.md "MLflow Logging Rules — Training loss → mlflow.log_metric(step=) per epoch/round" 및 프로젝트 memory feedback_mlflow_full_logging 재점검:

  • [P1 필수] 다음 phase 스크립트 (TSLib 2차 또는 v10 VQ 재시도 모두 해당) 에서 Lightning on_train_epoch_end callback 을 필수로 부착하여 train_loss / val_loss / val_msemlflow.log_metric(..., step=epoch) 으로 재-emit.
  • 구체 구현 패턴 (a) pytorch_lightning.loggers.MLFlowLogger 를 NF trainer 에 inject, 또는 (b) mlflow.pytorch.autolog(log_every_n_epoch=1) 을 run 시작 직후 호출 — 두 방식의 NF 내부 trainer 충돌 여부를 engineer 가 docs/reference/project_state/v9_baseline_ext_lessons.md 에 사전 문서화.
  • [P2 권고] 사전 가설 등록 강화 — "모델 A 가 가구 X 에서 특히 잘 작동할 것" 같은 apt-specific 예측은 설계서 가설 항목에 사전 등록된 경우에만 post-hoc 해석 허용 (본 phase FEDformer × Apt51 사례 재발 방지).
  • [P3 권고] 집계 스크립트 기본 seed=42 subset 병기 — v6 baseline 과의 seed 비대칭 표시 누락 방지.

최종 판정

  • H9-5a: FAIL (3 모델 × 5-apt × 3-seed 평균 기준 PAPE ≤ 43 AND HR@1 ≥ 37 미충족).
  • H9-5b (VQ 후보 존재): 자동 미충족 (전제 H9-5a Pass/Watch 부재).
  • 상대 우위: FEDformer 가 3종 중 전 축 최선. "경쟁력" 이 아니라 "3종 내 상대 최선" 수준.
  • 대체 판정 (설계서 §6.3): TSLib 2차 착수 여부 및 후속 phase 방향은 사용자 결정 사항.
  • 본 phase status: exp-critic Revision-Required 판정 → exp-expert revision 1 에서 Critical 2 + Major 4 + Minor 5 전량 반영 완료. 상류 gate 통과. 재실험 없음.
  • 후속 phase 진입 시 P1 강제사항: Lightning on_train_epoch_end callback 으로 per-epoch loss MLflow 로깅 필수.