Source:
report/version6/exp-expert/v6_0415_tsfm_baseline_results.md
TSFM Zero-Shot Baseline 실험 결과 보고서¶
- 실험: Foundation Model Zero-Shot Baseline (3 Models × 5 Apartments)
- 날짜: 2026-04-15
- 스크립트:
experiments/forecasting/v6_0415_tsfm_baseline.py - MLflow: experiment
TSFM-Baseline
1. 실험 설정¶
- 모델: Chronos-Bolt-Small (47.7M), TimeMoE-50M, Moirai-1.1-R-Small
- 방법: Zero-shot 추론 (학습 없음, pretrained_models/ 로컬 보유)
- 가구: Apt6, Apt15, Apt30, Apt51, Apt88
- 조건: seq_len=96, pred_len=24, bfloat16, sliding window test set
2. 모델별 평균 성능 (5가구 평균)¶
| Model | Params | MSE | MAE | PAPE (%) | HR (%) |
|---|---|---|---|---|---|
| TimeMoE-50M | 50M | 0.549 | 0.479 | 43.38 | 32.93 |
| Chronos-Bolt-Small | 47.7M | 0.555 | 0.472 | 44.98 | 37.68 |
| Moirai-1.1-R-Small | ~20M | 0.641 | 0.508 | 46.61 | 17.73 |
| B0 (참고) | 4.6K | 0.522 | — | 42.55 | — |
3. 핵심 발견¶
- TimeMoE-50M이 PAPE 최선 (43.38%) — B0(42.55%)에 가장 근접하나 미달
- Chronos-Bolt이 HR 최선 (37.68%) — 피크 시점 정확도는 높지만 크기 예측 부족
- Moirai가 전 지표 최약 — MSE 0.641, PAPE 46.61%, HR 17.73%
- 3개 FM 모두 zero-shot으로는 B0(DLinear 4.6K) 미달 — 가구별 fine-tuning 없이는 한계
4. 수정 사항¶
TimeMoE의 model.generate() API가 최신 transformers와 비호환 (attention mask 크기 불일치). model.forward()를 직접 호출하는 manual autoregressive loop으로 수정.
5. 의의¶
47.7M 파라미터의 Foundation Model도 4.6K DLinear의 PAPE를 못 넘음 → 피크 예측에서는 모델 크기보다 loss 설계(Peak-Weighted)와 개인화(가구별 학습)가 핵심.