Source:
report/version9/reporter/v9-05_baseline_ext_summary.md
v9-05 Baseline Extension — Phase 종합 요약¶
0. Executive Summary¶
- H9-5a 판정: FAIL. NeuralForecast 3종 (Autoformer / Informer / FEDformer) 모두 5-apt × 3-seed 평균 기준
PAPE ≤ 43% AND HR@1 ≥ 37%양축 게이팅을 미충족. 3종 중 상대 최선은 FEDformer (PAPE 52.04, HR@1 27.05, MSE 0.600) 이나 gating 절대 기준에서 각각 −9.04%p / −9.95%p 부족. - H9-5b (VQ 후보 존재) 자동 미충족. v10 이후 VQ 재시도를 위한 "DLinear 대체 backbone 후보"는 본 phase 실행 범위(NF 1차 3종) 에서 확보되지 않음.
- FEDformer × Apt51 단일 가구 HR@1 = 41.90% — NF 3종 내 유일한 HR@1 ≥ 37 임계 초과 조합이나, 동일 가구의 Chronos HR@1=69.04 / B1 HR@1=69.95 대비 −27%p 격차이므로 가구 learnability 신호로 해석. 사전 등록되지 않은 사후 가설 (post-hoc speculation) 로만 기록.
- Wall-clock: 설계 예산(2–3h) 초과 없음. 전체 45 run 53.8분. 단 per-epoch loss 로깅 부재로 수렴 도달 여부 (early_stop vs max_steps 한계) 는 판별 불가.
- 사용자 결정 필요 사항 3건 (§8): (1) TSLib 2차 착수 여부, (2) 다음 phase 방향 (A/B/C 중 선택), (3) 후속 phase P1 강제사항 (Lightning callback per-epoch 로깅).
1. 실험 배경 및 범위¶
1.1 배경¶
v6~v9 phase 전반에 걸쳐 DLinear+VQ 결합 (ADR-009, archived) 이 codebook utilization 4% 수준의 near-collapse 를 기록하였고, v9 Stage 2 의 Chronos-Bolt LoRA 역시 3-seed PAPE 44.953 ± 0.054 로 R1b (PAPE 37.36) 대체에 실패했다 (v9-04 §2, phase closure). v10 이후 VQ 재시도를 위해서는 DLinear 를 대체할 VQ-친화 backbone 후보 를 먼저 확보해야 한다는 문제 설정에서 본 extension phase 가 설계됐다.
1.2 범위¶
- 1차 실행 대상 (본 phase): NeuralForecast Autoformer / Informer / FEDformer 3종, EC50 5가구 (Apt6/15/30/51/88), seed {42, 7, 123} 3-seed, 총 45 run.
- 2차 대상 (설계만 기록, 실행 없음): TSLib ETSformer / Pyraformer / Crossformer / SCINet 4종. 본 phase 결과 확인 후 사용자 결정에 위임 (설계서 §2.2, §6.3).
- 중복 제외 (재인용만 수행): TFT / N-HiTS / TimesNet 은 v6 NF-Baseline experiment 수치를 §3 비교 표에 병합, 재학습 없음.
- VQ 결합·FL·KD 는 본 설계 범위 외. 순수 예측 성능 벤치마크만 수행.
1.3 구현 조건¶
- 스크립트:
experiments/forecasting/v9_0424_baseline_extension.py - 공통 하이퍼파라미터:
input_size=96, horizon=24, max_steps=500, early_stop_patience=50, val_check=50, lr=1e-3, scaler=standard— v6 NF baseline 과 동일 (직접 비교 가능성 유지). - NF 기본 구조값 (hidden_size, n_head, layers, dropout, modes 등) 은 override 없이 유지.
- 하드웨어: NVIDIA RTX 5070 Ti 단일 GPU 순차 실행.
- MLflow experiment:
v9-baseline-ext(id=766380978402830870), active 46 run (45 model + 1 aggregate_mean) + deleted 3 (중복 초기 시도 tombstone).
2. 결과 요약 테이블¶
2.1 v9-05 신규 3종 — 5-apt × 3-seed 평균 (n=15)¶
| Model | MSE | MAE | MAPE (%) | sMAPE (%) | PAPE (%) | HR@1 (%) | HR@2 (%) | PAPE≤43? | HR@1≥37? | 판정 |
|---|---|---|---|---|---|---|---|---|---|---|
| Autoformer | 0.660 ± 0.434 | 0.519 ± 0.204 | 67.24 ± 9.04 | 46.07 ± 4.30 | 52.91 ± 6.79 | 15.33 ± 4.16 | 23.52 ± 6.22 | ✗ | ✗ | FAIL |
| Informer | 0.648 ± 0.422 | 0.511 ± 0.206 | 56.74 ± 9.93 | 44.21 ± 2.92 | 53.40 ± 5.67 | 20.67 ± 5.34 | 32.48 ± 8.11 | ✗ | ✗ | FAIL |
| FEDformer | 0.600 ± 0.392 | 0.492 ± 0.189 | 65.07 ± 9.73 | 44.55 ± 5.32 | 52.04 ± 6.29 | 27.05 ± 9.77 | 40.29 ± 14.70 | ✗ | ✗ | FAIL |
주: ± 는 15-run sample std. 가구 간 편차가 dominant (3-seed 내부 std 는 §5 참조).
2.2 v6/v9 기존 baseline 재인용 병합 (seed=42 단일, n=5)¶
| Source | Model | MSE | PAPE (%) | HR@1 (%) | HR@2 (%) | Gating |
|---|---|---|---|---|---|---|
| v9-05 | Autoformer | 0.660 | 52.91 | 15.33 | 23.52 | FAIL |
| v9-05 | Informer | 0.648 | 53.40 | 20.67 | 32.48 | FAIL |
| v9-05 | FEDformer | 0.600 | 52.04 | 27.05 | 40.29 | FAIL |
| v9-01 / v6 | Chronos-Bolt (zero-shot) | 0.555 | 44.98 | 37.71 | 48.56 | — |
| v9-01 / v6 | TimeMoE-50M | 0.549 | 43.38 | 32.93 | 42.88 | — |
| v9-01 / v6 | moirai-1.1-R-small | 0.641 | 46.61 | 17.73 | 27.86 | — |
| v9-01 / v6 | PatchTST | 0.572 | 48.41 | 21.14 | 30.00 | — |
| v9-01 / v6 | iTransformer | 0.593 | 51.00 | 19.43 | 27.14 | — |
| v9-01 / v6 | TimesNet | 0.594 | 48.90 | 26.57 | 38.29 | — |
| v9-01 / v6 | NHITS | 0.648 | 39.26 | 22.29 | 31.71 | — |
| v9-01 / v6 | TFT | 0.719 | 50.58 | 15.14 | 25.14 | — |
| v9-01 / v6 | B0 (DLinear Local) | 0.515 | 42.51 | 34.58 | 46.60 | — |
| v9-01 / v6 | B1 (DLinear FedAvg) | 0.505 | 43.64 | 36.92 | 49.39 | — |
| v9-01 / v6 | R1b (FedPM+DLinear) | 0.629 | 37.36 | 21.27 | 32.42 | PAPE Pass |
Footnote: - v9-05 는 n=15 (5 apt × 3 seed), v9-01/v6 baseline 은 n=5 (5 apt × seed=42 단일). seed 집합 비대칭 — §2.3 seed=42 단일 보조 비교에서 순위 robust 함 확인 (exp-expert §4.2). - v9-05 의 seed=42 single-filter 로 재계산 시 Autoformer PAPE 54.31 / Informer 52.17 / FEDformer 52.16 — 모델 레벨 순위 robust. - 본 phase 종료 시점 기준 v6 R1b (PAPE 37.36) 가 여전히 유일한 PAPE ≤ 43 Pass 모델 이며 v9-05 3종은 이를 대체하지 못함.
2.3 v6/v9 baseline 대비 순위 (5-apt 평균, 3-seed mean 기준)¶
- PAPE (lower=better) 순위: R1b 37.36 ≺ NHITS 39.26 ≺ B0 42.51 ≺ TimeMoE 43.38 ≺ B1 43.64 ≺ Chronos 44.98 ≺ moirai 46.61 ≺ PatchTST 48.41 ≺ TimesNet 48.90 ≺ TFT 50.58 ≺ iTransformer 51.00 ≺ FEDformer 52.04 ≺ Autoformer 52.91 ≺ Informer 53.40 (v9-05 3종 = 12–14위, 최하위 구간).
- HR@1 (higher=better) 순위: Chronos 37.71 ≻ B1 36.92 ≻ B0 34.58 ≻ TimeMoE 32.93 ≻ FEDformer 27.05 (v9-05 5위) ≻ TimesNet 26.57 ≻ NHITS 22.29 ≻ R1b 21.27 ≻ PatchTST 21.14 ≻ Informer 20.67 (v9-05) ≻ iTransformer 19.43 ≻ moirai 17.73 ≻ Autoformer 15.33 (v9-05) ≻ TFT 15.14.
- 해석: v9-05 신규 3종은 PAPE 축에서 전 baseline 중 최하위 구간. HR@1 축에서 FEDformer 가 TimesNet·NHITS·PatchTST·iTransformer·TFT 등을 앞지르나, 절대치가 gating 37% 을 10%p 하회하여 "상대 우위" 이상의 주장 불가.
3. H9-5a Gating 판정 근거¶
3.1 설계서 §1.4 기준 판정¶
| 조건 | 기준 | 충족 여부 |
|---|---|---|
| Pass | 1개 이상 모델이 (PAPE ≤ 43 AND HR@1 ≥ 37), 5-apt × 3-seed 평균 | 미충족 |
| Watch | 1개 이상이 단일 축만 달성 | 미충족 |
| Fail | 전 모델 두 축 모두 미달 | 충족 |
3.2 세부 gap 분석¶
| Model | PAPE | PAPE≤43 gap | HR@1 | HR@1≥37 gap |
|---|---|---|---|---|
| Autoformer | 52.91 | −9.91%p 초과 | 15.33 | −21.67%p 부족 |
| Informer | 53.40 | −10.40%p 초과 | 20.67 | −16.33%p 부족 |
| FEDformer | 52.04 | −9.04%p 초과 | 27.05 | −9.95%p 부족 |
3.3 Gating robustness¶
- FAIL 판정은 test metric (summary.csv 45 records) 만으로 독립 성립 — §6 에 기록된 MLflow per-epoch 로깅 누락과 무관.
- HR@1 seed std (4–8%p) 가 PAPE seed std (0.82–1.82%p) 대비 크나, gating 과의 gap (10–22%p) 이 noise band 를 크게 상회하므로 판정 안정성 확보.
- seed=42 단일 filter 보조 비교 (exp-expert §4.2) 에서도 Autoformer 54.31 / Informer 52.17 / FEDformer 52.16 PAPE 로 모델 레벨 순위 유지 — seed 비대칭 robust.
3.4 H9-5b 자동 미충족¶
설계서 §6.2 는 H9-5a Pass/Watch 모델에 대한 VQ 삽입 적합성 정성 판정을 전제로 하므로, H9-5a FAIL 귀결 시 자동적으로 VQ 후보 부재 로 귀결됨. v10 이후 VQ 재시도를 위한 DLinear 대체 backbone 후보는 본 phase 실행 범위에서 확보되지 않음.
4. 주요 관찰¶
4.1 FEDformer 3종 내 상대 최선 — gating 통과 아님¶
FEDformer 가 MSE / PAPE / HR@1 / HR@2 / PAPE seed std 전 축에서 3종 중 최선. 다만 5-apt × 3-seed 평균 절대치에서 모든 축이 gating 미달. 이는 backbone 선택 비교 근거가 아니라 "3종 중 그나마 덜 나쁜 것" 수준의 상대 관찰에 한정.
| 축 | FEDformer | 2위 | 3위 |
|---|---|---|---|
| PAPE (lower) | 52.04 | Autoformer 52.91 | Informer 53.40 |
| HR@1 (higher) | 27.05 | Informer 20.67 | Autoformer 15.33 |
| HR@2 (higher) | 40.29 | Informer 32.48 | Autoformer 23.52 |
| MSE (lower) | 0.600 | Informer 0.648 | Autoformer 0.660 |
| PAPE seed std | 0.82%p | Informer 1.78 | Autoformer 1.82 |
4.2 FEDformer × Apt51 단일 관찰 (사후 가설 수준)¶
FEDformer × Apt51 조합의 3-seed mean HR@1 = 41.90% (HR@2 = 65.71%) 로 NF 3종 내부에서 유일한 HR@1 ≥ 37 임계 초과 조합. 그러나:
- 동 가구의 Chronos HR@1 = 69.04%, B1 HR@1 = 69.95% 와 비교 시 FEDformer 41.90 은 −27%p 격차.
- Apt51 은 v9-01 §4 에서 이미 "모든 모델에서 HR 이 상대적으로 높은 가구" 로 관찰됨 — FEDformer 특이적 강점이 아니라 가구 자체의 learnability 신호.
- 설계서 §1.3 가설에 "FEDformer 가 특정 가구에서 특히 잘 작동" 은 사전 등록되지 않았으며, "주기성 × Fourier attention 정합" 설명은 사후 가설 (post-hoc speculation). 본 결과만으로 지지되지 않음.
- 5-apt 평균 FAIL 판정은 이 Apt51 단독 관찰에 의해 뒤집히지 않음.
4.3 Wall-clock — 예산 초과 없음, 수렴 도달 여부 판별 불가¶
- 전체 45 run 53.8분 완료. 설계 예상 2–3h 하한의 30–45% 수준.
- 모델별 평균 per-run 시간: FEDformer 94.3s / Autoformer 81.7s / Informer 39.0s.
- FEDformer / Autoformer 비율 = 1.15× (설계 예상 1.5–2× 하회).
- FEDformer seed std 0.6s, Autoformer 1.7s, Informer 0.6s — 3-seed 간 wall-clock 변동이 모델당 1–2% 이내로 극히 작다.
- 해석 제약: "빠르다 / distil 효율적" 해석은 각 모델이 max_steps=500 한계에서 종료했는지 early_stop 으로 조기 종료했는지 판별되어야 가능. per-epoch loss 로깅 부재로 검증 불가 (§6 참조). Seed 간 wall-clock std 극소 관찰은 오히려 "3-seed 모두 동일 종료 조건 (max_steps 도달 가능성)" 을 시사.
- 결론 어휘: "설계 예산 초과 없음" 으로 한정. 구조적 효율 해석은 철회.
4.4 가구별 편차 패턴¶
PAPE seed std (apt 내부 3-seed std 평균):
| Model | Apt6 | Apt15 | Apt30 | Apt51 | Apt88 | mean |
|---|---|---|---|---|---|---|
| Autoformer | 0.91 | 1.58 | 3.86 | 2.08 | 0.66 | 1.82 |
| Informer | 2.18 | 0.37 | 0.98 | 1.34 | 4.05 | 1.78 |
| FEDformer | 1.52 | 0.42 | 0.40 | 1.48 | 0.27 | 0.82 |
- FEDformer 가 재현성 측면에서 가장 안정 (mean 0.82%p).
- Autoformer Apt30 3.86%p / Informer Apt88 4.05%p 등 특정 apt × model 조합에서 seed std 급증 — apt-level 해석 시 주의.
5. Critic 지적 반영 내역 (Revision 1)¶
exp-critic 판정 Revision-Required, exp-expert revision 1 (2026-04-24) 에서 Critical 2건 + Major 4건 + Minor 5건 전량 반영. 재실험 없음.
5.1 Critical 수정¶
| # | 지적 사항 | 반영 위치 | 요약 |
|---|---|---|---|
| C1 | MLflow per-epoch 로깅 전량 누락 — CLAUDE.md 강제 규약 위반 | 결과 §2.0, §8.2#1, §8.3 P1 | 45 run 중 단 한 건도 train_loss / val_loss / val_mse per-step 로깅 없음. Lightning callback 부재 원인. FAIL 판정은 test metric 만으로 robust 하나, 수렴 해석 주장 (wall-clock, distil 효과, seed non-determinism) 근거 약화. 후속 phase P1 강제. |
| C2 | 한계 셀프-인정 완결성 결함 | 결과 §8.2 최상단 | 기존 5개 한계에 "Per-epoch train/val loss 미로깅 — 수렴 판별 불가" 를 #1 로 신규 추가. |
5.2 Major 수정¶
| # | 지적 사항 | 반영 내역 |
|---|---|---|
| M1 | FEDformer × Apt51 post-hoc cherry-picking 교정 | §5.2 "주기성 × Fourier attention 정합" 해석 삭제. Chronos/B1 의 Apt51 HR@1 대비 −27%p 격차 명시. "경쟁력" 어휘 제거 → "단일 가구 임계 근접, 사후 가설" 재기술. §8.1 관찰 2 동일 처리. |
| M2 | Wall-clock 1.15× "빠르다" 치환 제거 | §7.2 "R1 완화" → "예산 초과 없음" 한정. Seed std 극소 (0.6s) 가 max_steps=500 한계 도달 신호 가능성 명시. §8.1 관찰 3 Informer distil 해석 축소. |
| M3 | seed 비대칭 보조 비교 승격 | §4.2 seed=42 단일 subset 재계산 테이블 신설 (Autoformer 54.31 / Informer 52.17 / FEDformer 52.16 PAPE). 모델 레벨 순위 robust 확인. |
| M4 | MLflow 정리 "이미 목표 상태" 추측 제거 | §2.2 "orchestrator 또는 직전 세션" 제거 → "본 세션 진입 시점에 이미 deleted lifecycle, 전환 주체·시점 확인 불가" 로 교체. deleted 3건 start_time/end_time 테이블 추가. |
5.3 Minor 수정¶
- §9 산출물 인덱스에
summary_smoke.csv추가 - §1.1 seed 목록에 v9-02 설계 사전 등록 주석
- §8.1 관찰 4 "MovingAvg smoothing" 을 "가설 — ablation 미수행" 한정
- §4 NHITS row v6 MLflow 근거 주석
- §1.1 v9-01 "predict_len=1h" 오기 정정 주석
6. 한계 및 재현성¶
6.1 본 보고서 결과의 불완전성¶
- [최중요] Per-epoch train/val loss 미로깅 — 수렴 판별 불가.
experiments/forecasting/v9_0424_baseline_extension.py가 설계서 §4.3 per-step metrics spec 을 구현하지 않았음. Lightningon_train_epoch_endcallback 부재로 NF trainer loss history 가 MLflow 에 re-emit 되지 않음.MlflowClient().get_metric_history(run_id, "train_loss")전 run 에서 empty. CLAUDE.md "Training loss → mlflow.log_metric(step=) per epoch/round" 규약 및 프로젝트 memoryfeedback_mlflow_full_logging위반. 결과적 제약: wall-clock 해석 (§4.3), Informer distil 효과 해석, 3-seed 수렴 동질성 주장의 근거 모두 약화. 단 H9-5a FAIL 판정 자체는 test metric 만으로 robust. - 3-seed 로 HR 축 noise 미해소 가능성. HR@1 seed std 가 4~8%p 구간으로 PAPE std 의 ~3배. 다만 gating gap (10–22%p) 이 noise 범위 (5%p) 상회 → 판정 robustness 는 확보.
- v6 baseline 과 seed 정합 불일치. v9-01 recap baseline seed=42 단일, v9-05 는 3-seed mean. §2.3 보조 비교로 robust 함 확인. apt-level 상대 우위는 seed 선택에 따라 변동 가능 (Autoformer Apt30 std 3.86%p 사례).
- Non-determinism. NF
random_seed는 data shuffle + init 만 고정, Lightning 내부 CUDA non-determinism 잔존 (설계서 R4). 정식 결정론 검증은 수행하지 않음. - MAPE 이상치. Autoformer Apt15 MAPE 80.08 ± 3.96, FEDformer Apt15 MAPE 75.35 ± 0.68 등 MAPE 가 75–80% 구간. Apt15 의 소비값 작은 구간 + eps=1e-8 base MAPE 분모 불안정 → 수치 팽창. MAPE 해석은 분모 효과 주의.
- 설계서 §6.1 3-tier gating 미적용. 본 보고서는 §1.4 의 2축 (PAPE AND HR@1) gating 을 primary 로 사용. §6.1 3-tier 적용해도 모든 모델이 모든 tier 에서 Fail 임 확인.
6.2 재현성¶
- 원시 결과:
outputs/v9_baseline_ext/summary.csv(45 records). - 재현 스크립트:
outputs/v9_baseline_ext/_aggregate_analysis.py(재학습 없음, 집계 전용). - Smoke 결과:
outputs/v9_baseline_ext/summary_smoke.csv(1 record, Autoformer_Apt6_seed42, max_steps=50). - MLflow experiment
v9-baseline-ext(id=766380978402830870) 에 predictions artifact (y_true / y_pred npy, shape=(N_window, 24)) 및 per-run metric JSON 전량 저장. - Critic 재현 검증: summary.csv 기반 §2 / §4 / §5 테이블 모든 수치 ±0.001 이내 재생성 가능 (exp-critic §1 확인).
7. 참조 파일 경로¶
| 유형 | 경로 |
|---|---|
| 설계서 | report/version9/lab-leader/v9-05_baseline_extension.md |
| exp-expert 결과 (revision 1) | report/version9/exp-expert/v9-05_baseline_ext_results.md |
| exp-critic 판정 | report/version9/exp-critic/v9-05_baseline_ext_critic.md |
| v9 phase summary (선행) | report/version9/lab-leader/v9-04_phase_summary.md |
| 본 보고서 | report/version9/reporter/v9-05_baseline_ext_summary.md |
| 학습 스크립트 | experiments/forecasting/v9_0424_baseline_extension.py |
| 원시 결과 | outputs/v9_baseline_ext/summary.csv |
| Smoke 결과 | outputs/v9_baseline_ext/summary_smoke.csv |
| 집계 재현 스크립트 | outputs/v9_baseline_ext/_aggregate_analysis.py |
| 메트릭 JSON | outputs/v9_baseline_ext/metrics/*.json (45 파일) |
| MLflow | experiment v9-baseline-ext (id=766380978402830870), active 46 + deleted 3 |
8. Action Items / 사용자 결정 필요 사항¶
설계서 §1.4 및 §6.3 규약상, H9-5a FAIL 귀결 시 후속 방향은 사용자 결정 사항이다. 본 보고서는 옵션 선택을 강제하지 않으며, 판단 자료만 정리한다.
8.1 결정 #1 — TSLib 2차 착수 여부¶
설계서 §2.2 는 TSLib ETSformer / Pyraformer / Crossformer / SCINet 4종을 2차 대상으로 설계만 기록하고 실행은 사용자 결정으로 위임. 본 phase 결과 (NF 1차 3종 전수 FAIL) 를 감안한 판단 자료:
- 비용 추정: 본 1차 3종 wall-clock 53.8분 기준, TSLib 4종 × 45 run 은 유사 order (1–2h). 실제 주요 비용은 TSLib
configsNamespace 어댑터 구현 및 학습 루프 재작성 (설계서 §2.2 구조적 위험). - 1차 FAIL 시사점: Decomposition (Autoformer) / ProbSparse (Informer) / Frequency (FEDformer) 계열이 5-apt 평균에서 모두 FAIL. TSLib 4종 중 기계학습적으로 1차 3종과 강하게 차별되는 카테고리는 SCINet (non-attention) 정도. Crossformer 는 설계서 §2.2 에서 "단변량에서 무력화 가능성" 지적 존재. FAIL 반복 리스크.
- 맥락: v6 R1b (PAPE 37.36) 가 여전히 유일한 PAPE ≤ 43 Pass 모델인 구조가 v9 phase 전반에서 재확인됨.
8.2 결정 #2 — 다음 phase 방향¶
다음 3가지 옵션 중 사용자 판단 필요:
- 옵션 A: TSLib 2차 (ETSformer / Pyraformer / Crossformer / SCINet) 착수 → DLinear 대체 후보 탐색 지속. 설계서 §2.2 구조적 위험 재검토 필요. Fail 결과 감안 시 효용 재검토 권장.
- 옵션 B: VQ track 해산 / DLinear 유지 → 다른 연구 축으로 전환. 주의: VQ 의 가치는 "discrete representation 의 FL client 간 효율적 aggregation" (v6 FeDPM 계열 프로토콜) 측면에서 backbone 정확도와 독립된 논증 축. v9-05 결과 (backbone 정확도 FAIL) 는 VQ track 해산의 단독 근거로 사용되어서는 안 됨. 별도 ADR 근거 필요.
- 옵션 C: 본 NF 3종에서 hyperparameter 재탐색 (max_steps↑, input_size↑ 등). 3-seed 전수 FAIL (gap 9–22%p) 을 hyperparameter 탐색으로 회복할 수 있는지에 대한 사전 근거는 없으나, per-epoch loss 로깅 이후라면 수렴 상태 판별 후 탐색 가능.
8.3 결정 #3 — 후속 phase P1 강제사항 (재발 방지)¶
CLAUDE.md "MLflow Logging Rules — Training loss → mlflow.log_metric(step=) per epoch/round" 및 프로젝트 memory feedback_mlflow_full_logging 재점검:
- [P1 필수] 다음 phase 스크립트 (TSLib 2차 또는 v10 VQ 재시도 모두 해당) 에서 Lightning
on_train_epoch_endcallback 을 필수로 부착하여train_loss/val_loss/val_mse를mlflow.log_metric(..., step=epoch)으로 재-emit. - 구체 구현 패턴 (a)
pytorch_lightning.loggers.MLFlowLogger를 NF trainer 에 inject, 또는 (b)mlflow.pytorch.autolog(log_every_n_epoch=1)을 run 시작 직후 호출 — 두 방식의 NF 내부 trainer 충돌 여부를 engineer 가docs/reference/project_state/v9_baseline_ext_lessons.md에 사전 문서화. - [P2 권고] 사전 가설 등록 강화 — "모델 A 가 가구 X 에서 특히 잘 작동할 것" 같은 apt-specific 예측은 설계서 가설 항목에 사전 등록된 경우에만 post-hoc 해석 허용 (본 phase FEDformer × Apt51 사례 재발 방지).
- [P3 권고] 집계 스크립트 기본 seed=42 subset 병기 — v6 baseline 과의 seed 비대칭 표시 누락 방지.
최종 판정¶
- H9-5a: FAIL (3 모델 × 5-apt × 3-seed 평균 기준
PAPE ≤ 43 AND HR@1 ≥ 37미충족). - H9-5b (VQ 후보 존재): 자동 미충족 (전제 H9-5a Pass/Watch 부재).
- 상대 우위: FEDformer 가 3종 중 전 축 최선. "경쟁력" 이 아니라 "3종 내 상대 최선" 수준.
- 대체 판정 (설계서 §6.3): TSLib 2차 착수 여부 및 후속 phase 방향은 사용자 결정 사항.
- 본 phase status: exp-critic Revision-Required 판정 → exp-expert revision 1 에서 Critical 2 + Major 4 + Minor 5 전량 반영 완료. 상류 gate 통과. 재실험 없음.
- 후속 phase 진입 시 P1 강제사항: Lightning
on_train_epoch_endcallback 으로 per-epoch loss MLflow 로깅 필수.