TSFM Teacher KD Analysis

DistilTS (ICASSP 2026)가 TSFM→DLinear KD를 이미 선점함. 단순 Chronos Teacher → DLinear Student KD는 차별화 불가.

KD 선례 확인: - Chronos (Amazon T5, 8M~710M): DistilTS에서 Teacher로 직접 사용. encoder_last_hidden_state 추출 가능. 이미 pretrained_models/에 존재. - TimesFM (Google Decoder-only, 200M): DistilTS Teacher로 사용. hidden 추출 제한적. - Moirai (Salesforce Encoder, 14M~311M): DistilTS에서 평가됨. 에너지 도메인 명시적 지원. Encoder 구조라 hidden 추출 유리. - Timer (Tsinghua Decoder, 84M): TimeMoe 변형이 DistilTS에서 사용됨. - UniTS (Harvard NeurIPS 2024): KD Teacher 선례 없음, 에너지 도메인 적합성 낮음.

Why: DistilTS가 TSFM→경량모델 KD를 선점했으므로, 동일 방향으로는 논문 기여가 어려움.

How to apply: 논문 차별화를 위해 GWN(공간 관계 A_adp) + Chronos(시간 패턴)를 앙상블하는 Dual-Teacher KD 전략 권고. 에너지 커뮤니티 특화 그래프 KD가 고유 기여.

Lin & Wu 2024 논문 구조 확인: GWN Teacher → 개별 가구 MLP Student, Response-based Soft Target KD. 현재 프로젝트 구현의 직접 기반 논문. IJCAI 2021 전작(Attentive Transfer of GNN)도 동일 저자.