KD Architecture Review: 4-Part Literature Survey¶

작성일: 2026-04-08 | 담당: lab-leader¶

Q1: Chronos Feature-based KD의 EC 정보 부재 문제¶

핵심 답변¶

Chronos를 fine-tuning 없이 zero-shot Teacher로 사용하면 EC 특유의 집단 소비 패턴이 hidden state에 반영되지 않는다. DistilTS (ICASSP 2026, arXiv:2601.12785)는 Chronos를 Teacher로 사용하는 최초의 TSFM 증류 프레임워크이며, Teacher의 fine-tuning 여부에 대해서는 domain-specific adaptation 없이 zero-shot Teacher 상태로 증류하는 것을 기본 설계로 채택하고 있다. 그러나 배터리 용량 열화 예측 연구(arXiv:2505.08151)에서는 Timer-based TSFM을 LoRA로 fine-tuning한 뒤 KD하는 방식이 더 우수한 성능을 보임을 확인했다.

근거 논문/출처¶

논문	내용
DistilTS: Distilling Time Series Foundation Models for Efficient Forecasting (ICASSP 2026, arXiv:2601.12785)	Chronos Teacher, zero-shot 기반 증류, Factorized Temporal Alignment Module
Foundation Models Knowledge Distillation For Battery Capacity Degradation Forecast (arXiv:2505.08151)	TSFM + LoRA fine-tuning → KD → edge deployment
Time series foundation model chronos enhances nitrogen forecasting under data scarcity (ScienceDirect 2025)	domain-specific fine-tuning이 zero-shot보다 우수
Chronos-2: From Univariate to Universal Forecasting (arXiv:2510.15821)	EC 구조의 다변량 처리 가능한 encoder-only 구조

DistilTS 상세 분석¶

DistilTS의 Teacher 처리 방식: - Chronos를 frozen zero-shot Teacher로 사용 (fine-tuning 불필요 설계) - 핵심 문제: Teacher(Chronos, point-wise representation)와 Student(variate-wise embedding)의 구조 불일치 - 해결책: Factorized Temporal Alignment Module - Student의 variate-wise embedding을 Teacher의 point-wise 공간으로 projection - 추가: Horizon-Weighted Objectives - 단기 예측이 장기보다 쉬운 task difficulty discrepancy 해소

우리 프로젝트 적용 시 권장사항¶

옵션 A: Chronos fine-tuning 후 Teacher - EC 집계 데이터(50가구 합산 단변량)로 LoRA fine-tuning 수행 - fine-tuning 데이터: EC aggregate series (seq_len=96, pred_len=24) - 장점: EC 집단 소비 패턴이 hidden state에 내재화 - hidden state 추출 위치: Chronos-2(encoder-only, T5 기반) 기준 마지막 2~3 encoder layer의 representation이 최적 후보 - 일반적으로 중간-후반부 layer가 task-specific semantic을 가장 많이 포함 - Chronos original(T5 encoder-decoder) 기준: encoder의 final layer hidden state

옵션 B: GWN을 Primary Teacher, Chronos를 Auxiliary - GWN은 EC 데이터로 학습 → EC 패턴 내재화 확실 - Chronos는 zero-shot으로 시계열 일반 패턴 보완 - Dual-Teacher KD 구조 (우리 프로젝트의 기존 방향과 일치)

권장: EC 규모(50가구, seq_len=96)를 고려하면 LoRA fine-tuning 비용이 낮으므로 Chronos fine-tuning 시도가 현실적. 단, fine-tuning 데이터가 EC 집계(단변량)이면 개별 가구(다변량) Teacher로서의 의미는 제한적. → EC 집계 단변량 Chronos fine-tuning은 집계 수준의 peak 패턴만 담음: 개별 가구 Teacher 역할로는 불완전.

불확실한 부분¶

DistilTS가 Chronos Teacher를 fine-tuning했는지 완전히 확인되지 않음 (논문 상 zero-shot 설계로 기술되어 있으나 실험 세부 사항 미확인)
Chronos-2의 encoder hidden state가 개별 가구 다변량 예측 supervision에 얼마나 유효한지 정량 검증 없음
EC 도메인으로 fine-tuning된 Chronos를 Teacher로 쓴 선례가 논문으로 발표된 사례 없음 (2026년 4월 기준)

Q2: GWN이 공간 관계를 학습했다는 증명 방법¶

핵심 답변¶

GWN 원논문(Wu et al., IJCAI 2019)은 5가지 adjacency matrix 구성에 대한 ablation study를 통해 A_adp의 유효성을 검증했다. forward-only, backward-only, forward+backward, forward+backward+adaptive 조합 비교에서 adaptive 추가 시 성능이 일관되게 향상되었다. 정량적 trivial 판별 기준(uniform, diagonal-dominant)으로는 matrix entropy, sparsity, column-variance 등이 활용되나, 에너지/전력 도메인 전용 A_adp 검증 논문은 제한적이다.

근거 논문/출처¶

논문	내용
Graph WaveNet for Deep Spatial-Temporal Graph Modeling (Wu et al., IJCAI 2019, arXiv:1906.00121)	5-variant ablation으로 A_adp 유효성 검증, column-wise high-value 분석
PowerGNN: A Topology-Aware GNN for Electricity Grids (arXiv:2503.22721)	전력 도메인 GNN 구조 검증
MTGNN: Connecting the Dots (arXiv, NeurIPS 2020)	graph learning module의 learned edge 시각화
Spatiotemporal GNNs in short-term load forecasting (arXiv:2502.12175)	가구 전력 부하 예측 GNN 구조 추가 여부의 실질적 효과 검증

A_adp 검증 방법론 정리¶

1. Ablation Study (정량적) - GWN 원논문 방식: 5가지 adjacency 구성 성능 비교 - no graph / pre-defined only / adaptive only / pre-defined + adaptive - EC 적용: A_adp만 / distance matrix만 / 결합 조건 비교 - 핵심 메트릭: PAPE, MAE, RMSE에서 A_adp 유/무 차이 측정

2. Matrix 시각화 (정성적) - heatmap 시각화: 특정 가구가 다수 가구에 높은 weight를 가지면 "influencer node" 해석 가능 - GWN 원논문: "일부 column에 high-value point 집중" → 특정 노드가 전체에 영향력 있음을 시각적으로 확인 - EC에서는: 대형 가구(고소비) vs. 소형 가구 간 관계 패턴 확인 가능

3. Trivial 판별 기준 (정량적)

판별 지표	Trivial 상태	비 Trivial 상태
Column variance	낮음 (균등 분포)	높음 (특정 노드 집중)
Diagonal dominance ratio	높음 (self-loop 지배)	낮음 (inter-node 관계 포착)
Matrix entropy	최대값 근접 (균등)	중간값 (선택적 연결)
Effective rank	1 (rank-1 구조)	높음 (다양한 관계 패턴)
Sparsity (L1 regularization 후)	낮음 (dense)	높음 (선택적 연결)

4. Downstream Task 검증 - A_adp를 random matrix로 대체 시 성능 저하 → 학습된 관계가 의미 있음 증명 - A_adp를 고정(freeze)하고 fine-tune 시 성능 유지 여부 확인

5. 도메인 지식 교차 검증 - EC에서 물리적으로 가까운 가구 또는 소비 패턴이 유사한 가구가 A_adp에서도 높은 weight를 갖는지 확인 - Pearson correlation matrix와 A_adp의 Frobenius distance 계산

우리 프로젝트 적용 시 권장사항¶

EC 50가구 A_adp 검증을 위한 실험 설계: 1. Ablation: A_adp 제거 vs. 유지 시 PAPE 비교 → 이미 부분 수행됨 (gwn_pretrain 실험) 2. Heatmap 시각화: A_adp = softmax(E1 @ E2.T) 계산 후 50x50 heatmap 생성 3. Column variance 측정: np.var(A_adp, axis=0) → 높을수록 특정 노드 집중 4. Correlation 비교: Pearson correlation(50가구 소비 시계열) vs A_adp → Spearman correlation 계산 5. Diagonal dominance ratio: diag_sum / total_sum → 0.7 이상이면 trivial self-loop 지배 의심

불확실한 부분¶

A_adp trivial 여부의 통계적 유의성 검정 임계값이 문헌에 표준화되어 있지 않음
EC 도메인(비교적 homogeneous한 가구 집합)에서 GNN이 meaningful한 spatial relation을 학습할 수 있는지에 대한 직접적 선례 없음
가구 간 물리적 거리/연결 정보가 없는 경우 A_adp 검증의 "ground truth" 부재 문제

Q3: EC 다변량 처리 시 적합한 Teacher 모델¶

핵심 답변¶

EC 50가구를 다변량 시계열로 처리할 경우, iTransformer (ICLR 2024 Spotlight)가 variate-level token 구조 덕분에 EC Teacher로 가장 적합하다. 각 가구를 독립 variate token으로 처리하므로, 특정 가구(variate)의 hidden state를 레이어별로 분리 추출이 구조적으로 용이하다. 다변량 Teacher → 단변량 Student KD 구조를 직접 다룬 논문은 TimeKD (ICDE 2025, arXiv:2505.02138)가 유사하나, 50가구 → 개별 1가구 예측 구조는 직접적 선례가 없다.

근거 논문/출처¶

논문	내용
iTransformer: Inverted Transformers Are Effective for Time Series Forecasting (ICLR 2024 Spotlight)	variate-level token, 다변량 correlation 포착
TimeKD: Efficient Multivariate TS Forecasting via CLMs with Privileged KD (ICDE 2025, arXiv:2505.02138)	LLM 기반 다변량 Teacher → 경량 Student KD
Load Forecasting for Households and Energy Communities (arXiv:2501.05000)	EC 대상 deep learning 비교 벤치마크
Spatiotemporal GNNs in short-term load forecasting (arXiv:2502.12175)	GNN 구조 추가의 EC 예측 효과 의문 제기
CT-PatchTST: Channel-Time Patch TST for Renewable Energy Forecasting (arXiv:2501.08620)	에너지 다변량 예측

EC 다변량 Teacher 후보 비교¶

모델	다변량 처리 방식	EC Teacher 적합성	variate 분리 추출	비고
iTransformer	가구별 variate token	높음	매우 용이 (token 분리)	ICLR 2024 Spotlight
GWN	graph-based 50x50 다변량	높음 (spatial 관계 학습)	가능 (node embedding)	현재 Teacher 후보
PatchTST	channel-independent patch	중간	용이 (CI 방식)	채널 간 interaction 없음
MTGNN	adaptive graph learning	높음	가능	GWN과 유사, 더 유연한 graph 학습
Crossformer	cross-time/dimension attention	높음	복잡	계산 비용 높음
TimesNet	2D temporal variation	중간	어려움	다변량 correlation 간접적

iTransformer의 EC Teacher 적합성 상세¶

iTransformer의 variate token 구조가 EC Teacher로 유리한 이유: - 각 가구(variate)를 전체 time series → 1개 token으로 embedding - Self-attention이 50가구 간 correlation 학습 (EC 집단 패턴 포착) - 개별 가구 hidden state 추출: i번째 variate token의 각 layer output을 직접 슬라이싱 - Student(DLinear)에게 특정 가구 j의 hidden state를 feature supervision으로 전달 가능

hidden state 추출 방법 (iTransformer):

# iTransformer forward에서 enc_out shape: [batch, n_vars, d_model]
# 가구 j의 hidden state: enc_out[:, j, :]  # shape: [batch, d_model]
# 최적 추출 레이어: 마지막 attention layer (전체 가구 interaction 완료 후)

다변량 Teacher → 단변량 Student KD 구조 분석¶

TimeKD (ICDE 2025) 방식: - 다변량 Teacher: LLM with ground-truth prompts (privileged information) - KD 메커니즘: correlation distillation + feature distillation - Student: 일반 다변량 예측 모델 (Teacher의 다변량 출력을 학습) - 우리와 차이: TimeKD는 다변량→다변량, 우리는 다변량→단변량(개별 가구)

우리 프로젝트에 필요한 구조: - Teacher(iTransformer): EC 50가구 다변량 입력 → 50가구 다변량 예측 - Student(DLinear/경량): 개별 가구 단변량 입력 → 해당 가구 예측 - KD 방식: Teacher의 j번째 variate hidden state → Student feature supervision

우리 프로젝트 적용 시 권장사항¶

iTransformer를 EC Teacher 후보로 추가: GWN(spatial graph)과 iTransformer(attention-based variate correlation)를 비교 실험
EC 다변량 입력 구성: 50가구 시계열을 (batch, seq_len=96, n_vars=50) 형태로 Teacher 입력
KD 구조: Teacher forward에서 각 가구의 variate token hidden state를 레이어별로 추출 → Student의 intermediate layer와 MSE alignment
주의사항: arXiv:2502.12175 연구에 따르면 EC 예측에서 GNN의 공간 구조 추가가 항상 유의미한 개선을 가져오지 않음 → iTransformer의 attention 기반 접근이 더 안정적일 수 있음

불확실한 부분¶

다변량 Teacher(50가구 입력)가 단변량 Student(1가구 입력) 예측을 개선하는지 직접 검증한 선례 없음
EC 50가구 규모(N=50)에서 iTransformer self-attention이 meaningful한 inter-variate correlation을 학습하는지 미검증
GWN vs. iTransformer의 EC Teacher 성능 비교 실험 결과 없음

Q4: DLinear 외 Adj Matrix / Hidden State 수용에 적합한 Student 모델¶

핵심 답변¶

KD 문헌에서 graph adjacency matrix 또는 Teacher hidden state를 직접 input으로 받도록 설계된 경량 Student는 표준화된 형태로 존재하지 않는다. TimeDistill (KDD 2026, arXiv:2502.15016)이 MLP Student에 Transformer/CNN Teacher의 multi-scale, multi-period 패턴을 증류하는 가장 직접적 선례이며, DLinear/FITS/TSMixer 등 경량 모델을 Student로 활용 가능함을 보였다. 에너지 예측 도메인의 edge deployment에서는 DLinear, FITS, TiDE가 자주 등장하며, adjacency matrix를 auxiliary input으로 받는 비GNN 경량 모델은 문헌에 표준 구조가 없다.

근거 논문/출처¶

논문	내용
TimeDistill: Efficient Long-Term TS Forecasting with MLP via Cross-Architecture Distillation (KDD 2026, arXiv:2502.15016)	MLP Student, Transformer Teacher, multi-scale/period distillation
TimeKD: Efficient Multivariate TS Forecasting via CLMs with Privileged KD (ICDE 2025, arXiv:2505.02138)	feature distillation + correlation distillation
DistilTS (ICASSP 2026, arXiv:2601.12785)	Factorized Temporal Alignment Module, Student embedding 정렬
Prototype-Guided KD from GNNs to MLPs (COLING 2025)	GNN → MLP KD, adjacency matrix 없이 MLP 추론
Distilling knowledge from GNNs to non-neural student models (Scientific Reports 2025)	GNN Teacher → 비신경망 Student

Student 후보 모델별 KD 적합성 분석¶

1. DLinear (현재 채택) - 장점: 구조 단순, PAPE 기준 기존 실험 성능 확인됨, 빠른 추론 - 한계: hidden state가 1개 linear layer로 매우 얕음 → feature distillation 대상이 사실상 final output뿐 - KD 방식: Response-based KD(soft label) 위주, Feature-based KD 구조 확장 필요 - Adjacency matrix 수용: 별도 입력 채널로 추가 가능하나 아키텍처 수정 필요

2. PatchTST (소형, channel-independent) - 장점: patch 기반 representation → Teacher hidden state alignment에 구조적으로 적합 - 한계: channel-independent 방식으로 EC 가구 간 interaction 없음 - KD 방식: patch embedding layer 정렬, DistilTS의 factorized alignment 적용 가능 - Adjacency matrix 수용: 기본 구조에 없음, 별도 graph attention 레이어 추가 필요 - 적합성: Feature-based KD Student로 DLinear보다 우수, 경량 버전 존재(d_model=64 등)

3. TimeMixer (ICLR 2024) - 장점: 다해상도 decomposition, TimeDistill의 multi-scale distillation과 자연스럽게 호환 - 한계: 파라미터 수가 DLinear보다 많음 (경량성 약화) - KD 방식: 각 resolution level에서 Teacher의 multi-scale 표현과 alignment - Adjacency matrix 수용: mixing module에 graph 정보 통합 가능하나 아키텍처 수정 필요 - 적합성: peak 예측의 다해상도 패턴 포착에 이론적 장점

4. FITS (Frequency Interpolation Time Series) - 장점: 주파수 도메인 경량 모델, 파라미터 수 극소화(10K 수준) - TimeDistill 실험에서 FITS를 Student로 쓸 때 3.96% 성능 향상 확인 - KD 방식: 주파수 도메인 distillation과의 시너지 (TimeDistill multi-period distillation 적합) - Adjacency matrix 수용: 매우 어려움 (주파수 도메인 구조) - 적합성: 극경량 on-device 배포 목표 시 최선, peak 주파수 성분 포착에 유리

5. TSMixer (MLP-Mixer 기반) - 장점: time-mixing + channel-mixing 분리 → channel mixing에서 adjacency matrix 정보 활용 가능 - TimeDistill 실험에서 TSMixer Student 6.26% 성능 향상 확인 - KD 방식: channel-mixing layer에 Teacher의 inter-variate attention map과 alignment - Adjacency matrix 수용: channel-mixing matrix를 A_adp로 초기화하는 접근 가능 (유망) - 적합성: Adjacency matrix를 auxiliary input으로 통합하기 가장 자연스러운 구조

6. TiDE (Time-series Dense Encoder) - 장점: feature injection 구조 내장 (covariate, static feature 입력 가능) - 경량 MLP 기반, 빠른 추론 - KD 방식: encoder bottleneck에서 Teacher hidden state alignment - Adjacency matrix 수용: static feature 입력 채널로 adjacency row(i번째 가구의 관계 벡터)를 직접 주입 가능 - 적합성: Adjacency matrix auxiliary input 통합에 가장 구조적으로 용이

7. N-BEATS / N-HiTS - 장점: basis expansion 기반 해석 가능성, N-HiTS는 multi-rate sampling으로 peak 패턴 포착 가능 - 한계: graph 정보 통합 경로 불명확, KD student로의 사용 선례 제한적 - Adjacency matrix 수용: 추가 입력 블록 설계 필요

Adjacency Matrix를 Auxiliary Input으로 받는 구조 설계 가이드¶

문헌에 표준 구조 없음 → 프로젝트 독자 설계 필요. 유망한 접근:

방법 1: Static Node Feature Injection (TiDE 방식)
  - 각 가구 i에 대해 A_adp[i, :] (50차원 벡터)를 static covariate로 TiDE 입력
  - 장점: 아키텍처 수정 최소, TiDE 기본 구조 활용
  - 단점: A_adp 동적 업데이트 불가

방법 2: Channel Mixing Initialization (TSMixer 방식)
  - TSMixer의 channel-mixing FC layer weight를 A_adp로 초기화
  - 학습 중 A_adp 정보가 mixing pattern에 녹아듦
  - 장점: 아키텍처 수정 없이 A_adp 활용
  - 단점: 학습 과정에서 A_adp 정보 희석 가능

방법 3: Graph-Enhanced Prefix (범용)
  - A_adp[i, :] → FC layer → 시계열 앞에 prefix token으로 추가
  - 어떤 Transformer 기반 Student에도 적용 가능
  - 장점: 범용성

에너지 예측 KD Student 사례 요약¶

도메인	Teacher	Student	KD 방식	출처
배터리 열화 예측	Timer-TSFM (LoRA fine-tuned)	경량 MLP	feature + response	arXiv:2505.08151
다변량 TS 예측	LLM (calibrated)	일반 예측 모델	correlation + feature distillation	TimeKD, ICDE 2025
장기 TS 예측	Transformer/CNN	MLP (DLinear, FITS, TSMixer 등)	multi-scale + multi-period	TimeDistill, KDD 2026
TSFM 일반	Chronos	경량 모델	temporal alignment	DistilTS, ICASSP 2026

우리 프로젝트 적용 시 권장사항¶

우선 순위별 Student 후보: 1. TiDE (P1): Adjacency matrix static input 통합이 구조적으로 가장 자연스러움, 경량 2. TSMixer (P1): channel-mixing과 A_adp 초기화 시너지, TimeDistill에서 검증됨 3. DLinear (P0, 현재): baseline 유지, A_adp 정보는 input augmentation으로 추가 4. FITS (P2): 극경량 온디바이스 목표 시, A_adp 통합은 어려우나 pure KD 성능 우수 5. PatchTST-small (P2): Feature-based KD alignment 구조에 최적, A_adp 통합은 추가 설계 필요

즉각 적용 가능한 baseline 확장안: - DLinear에 A_adp row를 static feature로 concatenate → input augmented DLinear - TimeDistill의 Multi-Scale + Multi-Period distillation을 DLinear에 적용

불확실한 부분¶

TSMixer channel-mixing weight를 A_adp로 초기화하는 방식의 실제 효과 미검증
TiDE의 static covariate 입력이 50가구 adjacency row를 얼마나 효과적으로 처리하는지 불명확
N-HiTS의 peak 예측 특화 능력이 PAPE 메트릭에서 DLinear 대비 우월한지 직접 비교 없음

종합 권장사항 (프로젝트 다음 단계)¶

단기 (Phase 2 진입 직전)¶

GWN Teacher A_adp 검증 (Q2): Ablation + heatmap + column variance 측정 → exp-expert 위임
DistilTS 구현 검토 (Q1): src/DistilTS-ICASSP2026 폴더 이미 존재 → Chronos Teacher fine-tuning 여부 코드 확인

중기 (Phase 2 초기)¶

iTransformer EC Teacher 실험 (Q3): GWN vs. iTransformer Teacher 비교 → PAPE 기준
Student 다양화 (Q4): DLinear baseline + TiDE (adj input) + TSMixer 비교 실험

아키텍처 차별화 포인트¶

DistilTS 선점 위험 대응: EC 도메인 특화 + Dual-Teacher(GWN+Chronos) + PAPE 최적화라는 복합 차별화
"EC의 공간 관계(GWN A_adp)를 KD에 통합한 최초 프레임워크"를 핵심 contribution으로 설정
TSMixer의 channel-mixing + A_adp 초기화 구조를 독자적 Student 설계로 제안 가능

참고 문헌 전체 목록¶

DistilTS: Distilling Time Series Foundation Models for Efficient Forecasting (ICASSP 2026)
TimeDistill: Efficient Long-Term TS Forecasting with MLP via Cross-Architecture Distillation (KDD 2026)
TimeKD: Efficient Multivariate TS Forecasting via CLMs with Privileged KD (ICDE 2025)
Graph WaveNet for Deep Spatial-Temporal Graph Modeling (IJCAI 2019)
iTransformer: Inverted Transformers Are Effective for Time Series Forecasting (ICLR 2024 Spotlight)
Foundation Models KD For Battery Capacity Degradation Forecast (2025)
Chronos-2: From Univariate to Universal Forecasting
Load Forecasting for Households and Energy Communities (2025)
Spatiotemporal GNNs in short-term load forecasting (2025)
Reinforced Cross-Domain KD on Time Series Data (NeurIPS 2024)
Prototype-Guided KD from GNNs to MLPs (COLING 2025)
PowerGNN: A Topology-Aware GNN for Electricity Grids (2025)

토론 메모 (2026-04-08)¶

Q1: Chronos — EC 정보 부재 문제¶

DistilTS는 Chronos를 frozen zero-shot으로 사용. fine-tuning 없이도 동작하도록 설계됨. 단, EC 집단 소비 패턴은 hidden state에 없다는 본질적 한계가 있다.

EC 데이터로 LoRA fine-tuning 시 패턴을 담을 수 있지만, EC 합산(단변량) fine-tuning은 개별 가구 편차를 반영 못 한다.

→ Chronos는 "시계열 일반 패턴" 담당, GWN은 "EC 공간 관계" 담당으로 역할 분리한 Dual-Teacher 구조가 DistilTS 대비 차별화 포인트.

Q2: GWN A_adp 공간 관계 학습 증명¶

GWN 원논문은 adjacency 구성 5-variant ablation으로 검증. 정량적 trivial 판별 기준:

지표	trivial 판별 기준
Diagonal dominance ratio	≥ 0.7이면 self-loop 지배 (공간 정보 없음)
Column variance	너무 낮으면 uniform
Matrix entropy	uniform distribution에 가까운지
Spearman corr (A_adp vs Pearson corr matrix)	실제 가구 유사도와 일치하는지

→ 이 검증 없이는 KD 기여 주장이 성립하지 않는다. exp-expert에게 50×50 A_adp heatmap + 위 지표 계산을 위임 필요.

Q3: EC 다변량 Teacher 후보¶

iTransformer (ICLR 2024 Spotlight)가 가장 적합.

각 가구를 variate token으로 처리 → enc_out[:, j, :]로 j번째 가구 hidden state 직접 분리 추출 가능
GWN(graph 공간 관계) vs iTransformer(attention 기반 variate correlation) — 보완적 관계

주의: GNN의 공간 구조 추가가 EC 예측에서 항상 개선을 가져오지 않는다는 연구 결과(arXiv:2502.12175) 존재.

다변량→단변량 KD 직접 선례는 아직 없음 → 논문 contribution 공간 존재.

Q4: DLinear 외 Student 후보¶

우선순위	모델	이유
P0	DLinear	현재 baseline 유지
P1	TiDE	static covariate 입력 구조 → A_adp row를 그대로 주입 가능
P1	TSMixer	channel-mixing weight를 A_adp로 초기화 가능 → 미발표 독자 contribution
P2	FITS	극경량 (10K params), TimeDistill에서 Student 검증됨
P2	PatchTST-small	Feature-based KD hidden alignment에 구조적으로 최적

TSMixer의 channel-mixing weight를 A_adp로 초기화하는 구조가 가장 독창적인 기여가 될 수 있음.

전체 아키텍처 제안¶

EC 50가구 다변량
       ↓
iTransformer Teacher ──→ enc_out[:, j, :] (가구별 hidden) ──┐
                                                              ├→ DLinear / TiDE / TSMixer Student
GWN Teacher ──────────→ A_adp (공간 관계) ──────────────────┘
                (A_adp 검증 통과 시만 사용)

이 구조가 DistilTS(TSFM KD)와 Lin & Wu 2024(GWN ST-KD)를 동시에 뛰어넘는 방어 가능한 방향.