TSFM Teacher KD Analysis
DistilTS (ICASSP 2026)가 TSFM→DLinear KD를 이미 선점함. 단순 Chronos Teacher → DLinear Student KD는 차별화 불가.
KD 선례 확인:
- Chronos (Amazon T5, 8M~710M): DistilTS에서 Teacher로 직접 사용. encoder_last_hidden_state 추출 가능. 이미 pretrained_models/에 존재.
- TimesFM (Google Decoder-only, 200M): DistilTS Teacher로 사용. hidden 추출 제한적.
- Moirai (Salesforce Encoder, 14M~311M): DistilTS에서 평가됨. 에너지 도메인 명시적 지원. Encoder 구조라 hidden 추출 유리.
- Timer (Tsinghua Decoder, 84M): TimeMoe 변형이 DistilTS에서 사용됨.
- UniTS (Harvard NeurIPS 2024): KD Teacher 선례 없음, 에너지 도메인 적합성 낮음.
Why: DistilTS가 TSFM→경량모델 KD를 선점했으므로, 동일 방향으로는 논문 기여가 어려움.
How to apply: 논문 차별화를 위해 GWN(공간 관계 A_adp) + Chronos(시간 패턴)를 앙상블하는 Dual-Teacher KD 전략 권고. 에너지 커뮤니티 특화 그래프 KD가 고유 기여.
Lin & Wu 2024 논문 구조 확인: GWN Teacher → 개별 가구 MLP Student, Response-based Soft Target KD. 현재 프로젝트 구현의 직접 기반 논문. IJCAI 2021 전작(Attentive Transfer of GNN)도 동일 저자.