GWN Adjacency Matrix 전달 방법론 분석¶
작성일: 2026-04-08 목적: GWN Teacher의 학습된 Adjacency Matrix (A_adp)를 Student에 전달하는 방법론 조사 및 비교 배경: 현재 GWN → DLinear KD는 Soft Target(출력값)만 전달하며, Teacher가 학습한 공간 관계 정보(A_adp)는 버려지고 있음
1. 현재 구현 상태¶
현재 GWN Teacher → DLinear Student의 지식 전달 경로:
GWN Teacher
├─ E1, E2 (학습된 노드 임베딩) ← 사용되지 않음
├─ A_adp = Softmax(ReLU(E1 @ E2^T)) ← GWN 내부에서만 사용
└─ y_hat_gwn[:, household_idx, :] → Soft Target [B, pred_len]
↓
Student DLinear → s_out [B, pred_len] ← Soft-DTW Loss
전달되는 것: 가구별 예측값 (Response-based KD)
전달되지 않는 것: 가구 간 관계 구조 (A_adp), 중간 표현 (hidden states), 노드 임베딩 (E1, E2)
2. KD 분류 체계에서의 위치¶
Knowledge Distillation의 3대 분류 (Gou et al., 2021 — "Knowledge Distillation: A Survey"):
| 분류 | 전달 대상 | 현재 구현 | Adj. Matrix 전달 |
|---|---|---|---|
| Response-based | Teacher 출력 (soft target) | O (현재 방식) | 해당 없음 |
| Feature-based | 중간 레이어의 hidden representation | X | 방법 A, B, C |
| Relation-based | 데이터 간 관계 구조 | X | 방법 D, E |
A_adp 전달은 Feature-based 또는 Relation-based KD에 해당한다.
3. 방법론별 상세 분석¶
방법 A: Graph Embedding Injection (노드 임베딩 직접 주입)¶
핵심 아이디어: GWN이 학습한 E1, E2에서 특정 가구의 임베딩을 추출하여 Student의 입력 또는 bias로 주입
수식: $\(e_i = [E_1[i, :] \| E_2[i, :]] \in \mathbb{R}^{2d_e}\)$ $\(\text{Student bias} = \text{MLP}(e_i) \in \mathbb{R}^{pred\_len}\)$
구현 방향:
# DLinear에 조건부 bias 추가
class DLinearWithGraphContext(DLinear):
def __init__(self, seq_len, pred_len, channels, graph_embed_dim):
super().__init__(seq_len, pred_len, channels)
self.context_proj = nn.Linear(graph_embed_dim, pred_len)
def forward(self, x, graph_embed=None):
x_out = super().forward(x) # [B, P, D]
if graph_embed is not None:
bias = self.context_proj(graph_embed) # [pred_len]
x_out = x_out + bias.unsqueeze(0).unsqueeze(-1)
return x_out
관련 논문: - FiLM: Visual Reasoning with a General Conditioning Layer (Perez et al., AAAI 2018) - 조건부 feature 변조의 일반 프레임워크 - \(\gamma = f(c), \beta = g(c)\)로 hidden layer를 변조 - Node2Vec (Grover & Leskovec, KDD 2016) - 그래프 노드 임베딩을 다운스트림 태스크의 feature로 활용하는 선례
장점: - DLinear 구조 변경 최소 (bias 추가만) - 구현 매우 간단 - 학습 불안정성 낮음
단점: - E1, E2가 정적(시간 불변)이므로, 시간에 따라 변하는 관계를 반영하지 못함 - 임베딩 차원(2 x embed_dim = 20)이 작아 정보 용량 제한적 - GWN Teacher가 제대로 학습되지 않으면 노이즈만 주입
난이도: 낮음
구현 소요: 0.5일
추가 파라미터: ~480개 (20 → 24 linear)
방법 B: Adjacency Row as Auxiliary Feature (관계 벡터 입력 확장)¶
핵심 아이디어: A_adp의 i번째 행 (가구 i와 모든 가구의 관계 강도)을 Student 입력의 추가 채널로 결합
수식: $\(a_i = A_{adp}[i, :] \in \mathbb{R}^N\)$ $\(x'_{input} = [x_{ind} \| \text{repeat}(a_i, \text{seq\_len})] \in \mathbb{R}^{B \times \text{seq\_len} \times (1 + N)}\)$
관련 논문: - STGCN: Spatio-Temporal Graph Convolutional Networks (Yu et al., IJCAI 2018) - 그래프 구조 정보를 시계열 모델에 통합 - GTS: Discrete Graph Structure Learning for Forecasting Multiple Time Series (Shang et al., ICLR 2021) - 학습된 그래프 구조를 예측 모델의 조건으로 활용
구현 방향:
# ECPairDataset에 adj_row 추가
a_i = gwn_teacher.get_adaptive_adj()[household_idx].detach() # [N]
# Student 입력: [B, seq_len, 1] → [B, seq_len, 1+N]
x_augmented = torch.cat([x_ind, a_i.expand(B, seq_len, N)], dim=-1)
# DLinear(channels=1+N) 또는 individual=True
장점: - 직관적 — "이 가구는 어떤 이웃과 얼마나 관련있는가"를 명시적으로 전달 - N=50이면 50차원 관계 벡터 → 풍부한 공간 정보
단점:
- DLinear 구조 변경 필수: channels=1 → channels=1+N
- individual=True면 Linear 레이어 51개 → 파라미터 급증
- individual=False면 모든 채널이 같은 가중치 공유 → 관계 정보 희석
- 정적 feature가 seq_len만큼 반복되어 비효율적
- N이 커지면 Student가 더 이상 "경량"이 아님
난이도: 중간
구현 소요: 1일
추가 파라미터: ~4,900개 (N=50, individual=False) 또는 ~245,000개 (individual=True)
방법 C: Feature-based KD — Hidden Representation Alignment¶
핵심 아이디어: Teacher(GWN)의 중간 레이어 출력과 Student의 출력 사이의 정렬 손실을 추가
수식: $\(L_{feat} = \text{MSE}(\phi_s(h^S), \phi_t(h^T_i))\)$
여기서 \(h^T_i\)는 GWN의 특정 레이어에서 가구 i에 대응하는 hidden state, \(\phi_s, \phi_t\)는 차원 정렬 projector
관련 논문: - FitNet: Hints for Thin Deep Nets (Romero et al., ICLR 2015) - Teacher의 중간 레이어 출력을 Student의 hint로 사용 - \(L_{HT} = \|u_h(x; W_{Hint}) - r(v_g(x; W_{Guided}); W_r)\|^2\) - Attention Transfer (Zagoruyko & Komodakis, ICLR 2017) - Teacher의 attention map을 Student에 전달 - SDKD: Spectral Decoupled Knowledge Distillation (Li et al., arXiv 2507.02939, 2025) - 시공간 예측에 특화된 KD — Teacher의 latent space에서 고주파/저주파를 분리하여 전달 - 주파수 정렬 전략으로 Student의 고주파 과적합/저주파 과소적합 완화 - 우리 세팅과 가장 유사한 문제를 다룸 (시공간 예측 경량화) - DistilTS (ICASSP 2026, 현재 프로젝트 참조 논문) - FTA (Factorized Temporal Alignment) 모듈로 Teacher-Student 아키텍처 불일치 해소 - Hidden embedding \(H^T\)와 \(H^S\)를 정렬
구현 방향:
# GWN의 마지막 ST Block 출력에서 가구 i의 hidden state 추출
# h_gwn: [B, N, hidden_dim, T] → h_gwn[:, household_idx, :, -1] → [B, hidden_dim]
# Student의 last_features: [B, D, P] → projector → [B, hidden_dim]
class FeatureAlignedTrainer(GWNSoftDTWTrainer):
def __init__(self, ...):
super().__init__(...)
self.projector = nn.Linear(student.pred_len, gwn_teacher_hidden_dim)
def train_epoch(self, epoch):
# ... 기존 KD loss ...
h_teacher = self.gwn_teacher.get_hidden(x_all)[:, self.household_idx, :, -1]
h_student = self.projector(s_out_1d)
l_feat = F.mse_loss(h_student, h_teacher.detach())
loss = l_task + lambda1 * l_kd + lambda_feat * l_feat
장점: - A_adp의 효과가 이미 hidden state에 반영되어 있으므로, 간접적이지만 완전한 공간 정보 전달 - KD 문헌에서 가장 연구가 많은 방법 — 이론적 근거 풍부 - 다양한 레이어에서 추출 가능 (multi-scale hints)
단점: - GWN forward에서 중간 출력을 추출하도록 모델 수정 필요 - Projector 차원 설계가 성능에 민감 - Teacher hidden dim과 Student 표현 간 의미 공간이 다를 수 있음 (architectural gap) - 추가 연산: GWN forward 시 중간 출력 저장 + projector forward/backward
난이도: 중간~높음
구현 소요: 1.5~2일
추가 파라미터: ~768개 (24 → 32 projector)
방법 D: Relational KD — 가구 간 관계 구조 전달¶
핵심 아이디어: Teacher가 학습한 가구 간 "관계 패턴"을 Student들의 출력 간 관계로 재현시킴. A_adp를 직접 전달하는 것이 아니라, A_adp가 인코딩한 관계 구조를 Student 앙상블의 출력에 반영.
수식: $\(R^T_{ij} = \frac{y^T_i \cdot y^T_j}{\|y^T_i\| \|y^T_j\|} \quad \text{(Teacher 가구 쌍 유사도)}\)$ $\(R^S_{ij} = \frac{y^S_i \cdot y^S_j}{\|y^S_i\| \|y^S_j\|} \quad \text{(Student 가구 쌍 유사도)}\)$ $\(L_{RKD} = \sum_{i,j} \|R^T_{ij} - R^S_{ij}\|^2\)$
관련 논문: - Relational Knowledge Distillation (Park et al., CVPR 2019) - 개별 출력이 아닌 데이터 간 "관계"를 전달하는 패러다임 - Distance-wise RKD: \(\psi_d(t_i, t_j) = \frac{1}{\mu}\|t_i - t_j\|_2\) - Angle-wise RKD: \(\psi_a(t_i, t_j, t_k) = \cos \angle t_i t_j t_k\) - Teacher와 Student 간 관계 구조의 유사성을 최적화 - CRD: Contrastive Representation Distillation (Tian et al., ICLR 2020) - 관계 구조를 contrastive learning 프레임워크로 전달 - Teacher-Student 간 mutual information 최대화 - STGNN-Distill (cited in SDKD, 2025) - 시공간 그래프 신경망에서 attention distillation으로 장거리 의존성 전달
구현 방향:
# 5가구 Student를 동시에 학습하며 관계 구조 정렬
# GWN Teacher: y_hat_gwn [B, N, pred_len] → 가구 쌍 유사도 행렬 [N, N]
# Students: y_hat_students [N, B, pred_len] → 가구 쌍 유사도 행렬 [N, N]
def relational_kd_loss(teacher_preds, student_preds):
"""
teacher_preds: [B, N, pred_len] (GWN 출력)
student_preds: [N, B, pred_len] (N개 Student의 출력)
"""
# Teacher 관계 행렬
t_flat = teacher_preds.permute(1, 0, 2).reshape(N, -1) # [N, B*P]
R_T = F.cosine_similarity(t_flat.unsqueeze(1), t_flat.unsqueeze(0), dim=-1)
# Student 관계 행렬
s_flat = student_preds.reshape(N, -1) # [N, B*P]
R_S = F.cosine_similarity(s_flat.unsqueeze(1), s_flat.unsqueeze(0), dim=-1)
return F.mse_loss(R_S, R_T.detach())
장점: - A_adp가 인코딩한 관계 정보를 가장 충실하게 재현 - 이론적으로 가장 탄탄 (CVPR 2019, 인용 2000+) - Student 아키텍처 변경 불필요 — DLinear 그대로 유지 - 논문에서 인용 가치가 높음 (Relation-based KD를 에너지 도메인에 적용한 사례 거의 없음)
단점: - 5가구 Student를 동시에 학습해야 함 → 현재 가구별 독립 학습 파이프라인 대폭 수정 - 학습 시 GWN forward + 5개 Student forward가 매 batch 필요 → 메모리/시간 증가 - 관계 행렬 계산이 배치 크기에 민감 (작은 배치에서 불안정) - Multi-student 동시 학습의 수렴 안정성 미검증
난이도: 높음
구현 소요: 2~3일
추가 파라미터: 0개 (Student 구조 변경 없음, 손실 함수만 추가)
방법 E: A_adp 직접 정규화 — Adjacency-Guided Loss¶
핵심 아이디어: A_adp를 KD loss의 가중치 또는 정규화 항으로 활용. 이웃 관계가 강한 가구의 Teacher 신호를 더 강하게 반영.
수식 (Variant 1 — 적응형 lambda): $\(\lambda_i^{adapt} = \lambda_{base} \cdot (1 + \beta \cdot A_{adp}[i, i])\)$
\(A_{adp}[i, i]\)가 높으면 GWN이 해당 가구를 "자기 자신의 과거"에 의존해서 예측 → Teacher 예측 신뢰도 높음 → KD 가중치 증가
수식 (Variant 2 — 이웃 가중 soft target): $\(y^{soft}_{weighted} = \sum_{j=1}^{N} A_{adp}[i, j] \cdot y^T_j\)$
단순히 가구 i의 Teacher 예측만 쓰는 것이 아니라, 이웃 가구들의 예측을 A_adp 가중 평균으로 혼합
관련 논문: - Adaptive Knowledge Distillation (Jin et al., AAAI 2021) - 인스턴스별 적응형 KD 가중치 - Graph Knowledge Distillation (Yang et al., CVPR 2022) - 그래프 구조를 KD 가중치로 활용
구현 방향:
# Variant 2: 이웃 가중 soft target
A_adp = gwn_teacher.get_adaptive_adj().detach() # [N, N]
y_hat_all = gwn_teacher(x_all) # [B, N, pred_len]
# 가구 i의 weighted soft target
weights = A_adp[household_idx] # [N]
y_soft_weighted = torch.einsum('n,bnp->bp', weights, y_hat_all) # [B, pred_len]
# KD Loss
l_kd = soft_dtw_kd_loss(s_out_1d, y_soft_weighted, gamma=gamma)
장점: - 기존 파이프라인 변경 최소 — soft target 계산 방식만 수정 - A_adp의 공간 정보를 자연스럽게 반영 - 구현 매우 간단
단점: - 간접적 활용이므로 A_adp의 정보가 희석될 수 있음 - Variant 2는 이웃 예측의 가중 평균이므로 smooth된 target → 피크 예측 약화 가능 - 이론적 근거가 다른 방법들에 비해 약함
난이도: 매우 낮음
구현 소요: 0.5일 이내
추가 파라미터: 0개
4. 방법론 종합 비교¶
| 방법 | 전달 정보 | DLinear 수정 | 난이도 | 소요 | 추가 params | 이론 근거 | 논문 가치 |
|---|---|---|---|---|---|---|---|
| A. Graph Embedding Injection | E1, E2 임베딩 | bias 추가 | 낮음 | 0.5일 | ~480 | 중 (FiLM) | 낮음 |
| B. Adj Row Feature | A_adp[i,:] 행벡터 | 채널 확장 | 중 | 1일 | ~5K~245K | 중 (STGCN) | 중 |
| C. Hidden Alignment | GWN hidden states | 불필요 (projector) | 중~높 | 1.5~2일 | ~768 | 강 (FitNet, SDKD) | 높음 |
| D. Relational KD | 가구 간 관계 구조 | 불필요 | 높음 | 2~3일 | 0 | 매우 강 (CVPR 2019) | 매우 높음 |
| E. Adj-Guided Loss | A_adp 가중치 | 불필요 | 매우 낮 | 0.5일 | 0 | 약 | 낮음 |
5. 추천 실행 순서¶
Phase 1: 빠른 검증 (0.5~1일)¶
방법 E (Adj-Guided Loss) 먼저 적용: - 기존 코드 변경 최소 - GWN Teacher가 제대로 학습된 후 A_adp의 "질"을 빠르게 확인 가능 - Variant 2 (이웃 가중 soft target)로 A_adp 활용 효과의 상한선 측정
Phase 2: 핵심 실험 (1.5~2일)¶
방법 C (Hidden Alignment) 적용: - Feature-based KD의 표준적 접근 - GWN의 공간-시간 특징을 Student에 직접 전달 - SDKD/DistilTS와 연결하여 논문에서 방법론적 기여 주장 가능
Phase 3: 논문 차별화 (2~3일, 선택적)¶
방법 D (Relational KD) 적용: - 에너지 도메인에서 Relational KD 적용 사례가 거의 없음 → 새로운 기여 - 5가구 동시 학습 파이프라인 구축 필요 - Phase 2 결과가 유의미할 경우에만 진행
6. 전제 조건¶
위 모든 방법의 공통 전제:
- GWN Teacher가 DLinear보다 우수해야 함 — Teacher MSE < 0.5207 (M0 Baseline)
- 현재 GWN Teacher MSE = 0.5858 (12.5% 열등) → 재학습 필수
-
0407_revised_GWN_KD_experiment.md의 Phase 1 (N=50, hidden_dim=64, num_layers=8) 완료 후 진행 -
DataLoader 시간 정렬 버그 수정 — Critic C3 대응 완료 후
-
현재 구현(
_precompute_soft_targets)은 이미 수정되었으나, 중간 hidden state 추출은 별도 구현 필요 -
A_adp의 의미 검증 — Teacher가 학습한 A_adp가 실제로 유의미한 가구 관계를 포착하는지 시각화 확인
7. 핵심 참고 논문¶
| 논문 | 연도 | 핵심 기여 | 관련 방법 |
|---|---|---|---|
| Lin & Wu, "Electric Load Forecasting via ST-KD" (IEEE Trans. Power Syst.) | 2024 | GWN Teacher → MLP Student, Soft Target KD, 개인정보 보호 분산 학습 | 현재 구현의 기반 |
| Lin & Wu, "Residential Electric Load Forecasting via Attentive Transfer of GNN" (IJCAI) | 2021 | GWN 기반 교사 → 학습된 그래프 구조를 Attentive Transfer로 전달 | 방법 D 참조 |
| Wu & Lin, "Efficient Residential LF via TL and GNN" (IEEE Trans. Smart Grid) | 2022 | GNN + Attentive Transfer Framework, 데이터 부족 상황 대응 | 방법 D 참조 |
| Park et al., "Relational Knowledge Distillation" (CVPR) | 2019 | 관계 구조 기반 KD (Distance-wise, Angle-wise) | 방법 D |
| Romero et al., "FitNet: Hints for Thin Deep Nets" (ICLR) | 2015 | 중간 레이어 hint 기반 Feature KD | 방법 C |
| Zagoruyko & Komodakis, "Paying More Attention to Attention" (ICLR) | 2017 | Attention map Transfer KD | 방법 C |
| Li et al., "SDKD: Frequency-Aligned KD for Lightweight ST Forecasting" (ICCV) | 2025 | 시공간 예측 특화 주파수 정렬 KD, 고주파/저주파 분리 전달 | 방법 C |
| DistilTS (ICASSP) | 2026 | TSFM→경량 Student KD, FTA 모듈, Horizon-Weighted Loss | 방법 C (TSFM Teacher) |
| Tian et al., "CRD: Contrastive Representation Distillation" (ICLR) | 2020 | Contrastive 관계 KD, Teacher-Student Mutual Information 최대화 | 방법 D |
| Jin et al., "Adaptive Knowledge Distillation" (AAAI) | 2021 | 인스턴스별 적응형 KD 가중치 | 방법 E |
| Yang et al., "Graph Knowledge Distillation" (CVPR) | 2022 | 그래프 구조를 KD 가중치로 활용 | 방법 E |
| Yu et al., "STGCN" (IJCAI) | 2018 | 시공간 그래프 CNN (ST-Conv Block, 완전 합성곱 구조) | 방법 B 참조 |
| Shang et al., "GTS: Discrete Graph Structure Learning for TS Forecasting" (ICLR) | 2021 | 학습된 그래프 구조를 예측 조건으로 활용 | 방법 B 참조 |
| Perez et al., "FiLM: Visual Reasoning" (AAAI) | 2018 | 조건부 feature 변조 | 방법 A |
| Gou et al., "Knowledge Distillation: A Survey" | 2021 | KD 분류 체계 (Response/Feature/Relation) | 전체 프레임워크 |
8. 결론¶
현재 Response-based KD(Soft Target만 전달)의 효과가 미미한 근본 원인은, GWN Teacher의 핵심 가치인 공간 관계 정보(A_adp)가 Student에 전달되지 않기 때문이다.
이를 해결하기 위한 가장 현실적인 경로는: 1. 방법 E (Adj-Guided Loss)로 A_adp 활용 가능성 빠르게 검증 2. 방법 C (Hidden Alignment)로 본격적 Feature-based KD 수행 3. 결과가 유의미하면 방법 D (Relational KD)로 논문 차별화
단, 이 모든 것은 GWN Teacher 재학습(N=50) 성공 이후에만 의미가 있다.
9. 논문별 Teacher-Student 모델 구성¶
조사 기준일: 2026-04-08. 검색 결과가 불확실한 경우 "확인 필요" 표시.
9.1 에너지/시계열 도메인 KD 논문¶
| 논문 | Teacher 모델 | Teacher 크기 | Student 모델 | Student 크기 | 도메인 | KD 방식 |
|---|---|---|---|---|---|---|
| Lin & Wu, "Electric Load Forecasting via ST-KD" (IEEE TPS, 2024) | GWN (Graph WaveNet) | ~500K params, N×N 노드 그래프 | 개별 가구 MLP (경량) | 소형 (~수천 params 추정) | 가정용 전력 부하 예측 | Response-based (Soft Target) |
| Lin & Wu, "Residential ELF via Attentive Transfer of GNN" (IJCAI, 2021) | GNN 기반 집합 모델 (GWN 계열, 출처 도메인) | 대형 | 개별 가구 예측 모델 (목표 도메인) | 소형 | 가정용 전력 부하 예측 | Feature-based (Attentive Transfer) |
| Wu & Lin, "Efficient Residential LF via TL and GNN" (IEEE TSG, 2022) | 멀티소스 GNN (소스 도메인) | 대형 | 타겟 도메인 경량 모델 | 소형 | 가정용 전력 부하 예측 | Feature-based (Attention 기반 Transfer) |
| DistilTS (ICASSP, 2026) | Chronos (Amazon T5 기반) / TimesFM (Google Decoder-only) / TimeMoe (MoE) / Moirai (Salesforce Encoder) | 20M~710M params | DLinear / iTransformer | ~4K / ~수백K params | 범용 시계열 예측 (멀티도메인) | Feature-based (FTA: Factorized Temporal Alignment) + Response-based (Horizon-Weighted Loss) |
| SDKD / "Frequency-Aligned KD for Lightweight ST Forecasting" (ICCV, 2025) | Encoder-Latent Evolution-Decoder 구조 Teacher (Convolution + Transformer 기반) | 대형 (구체적 아키텍처 공개 확인 필요) | 경량 CNN/MLP Student | 소형 | 교통·기상 등 시공간 예측 | Feature-based (Spectral/Frequency-Aligned, 고주파·저주파 분리) |
9.2 일반 KD 방법론 논문 (Computer Vision 기반)¶
| 논문 | Teacher 모델 | Teacher 크기 | Student 모델 | Student 크기 | 도메인 | KD 방식 |
|---|---|---|---|---|---|---|
| Romero et al., FitNet (ICLR, 2015) | 넓고 얕은 CNN (Wide Net) | 대형 (예: 넓은 ResNet 계열) | 깊고 얇은 CNN (Thin Deep Net) | 파라미터 ~10× 적음 (CIFAR-10 실험 기준) | 이미지 분류 (CIFAR-10, SVHN 등) | Feature-based (Hint Layer → Guided Layer) |
| Zagoruyko & Komodakis, AT (ICLR, 2017) | Wide ResNet (WRN-40-2 등) | 대형 | 얕은/좁은 ResNet (WRN-16-2 등) | 소형 | 이미지 분류 (CIFAR-10/100, ImageNet) | Feature-based (Attention Map Transfer) |
| Park et al., RKD (CVPR, 2019) | ResNet-50 / VGG 등 | 대형 | ResNet-18 / 소형 네트워크 | 소형 | 이미지 분류, Metric Learning | Relation-based (Distance-wise, Angle-wise Relation) |
| Tian et al., CRD (ICLR, 2020) | ResNet-50, VGG-13 등 | 대형 | ResNet-18, ShuffleNet 등 | 소형 | 이미지 분류 (CIFAR-100, STL-10, ImageNet) | Relation-based (Contrastive Mutual Information 최대화) |
| Jin et al., Adaptive KD (AAAI, 2021) | 대형 CNN (ResNet-50 등) | 대형 | 소형 CNN | 소형 | 이미지 분류 | Response-based + 적응형 가중치 (Instance-wise lambda) |
| Yang et al., Graph KD (CVPR, 2022) | 대형 CNN / GNN 기반 Teacher | 대형 | 소형 CNN / MLP | 소형 | 이미지 분류 / 그래프 기반 태스크 | Relation-based (그래프 구조 기반 KD 가중치) |
9.3 그래프 기반 시계열 모델 (KD 직접 적용 없음, 아키텍처 참조)¶
| 논문 | 모델 | 아키텍처 핵심 | 도메인 | 본 프로젝트 관련성 |
|---|---|---|---|---|
| Yu et al., STGCN (IJCAI, 2018) | STGCN | ST-Conv Block (Temporal Gated Conv × 2 + Spatial GCN) + FC 출력층 | 교통 속도·유량 예측 | 방법 B의 그래프 정보 활용 참조 |
| Shang et al., GTS (ICLR, 2021) | GTS | 확률적 그래프 구조 학습 + GRU 예측 모델 | 교통·기상 멀티변량 TS | 방법 B의 학습된 그래프 구조 활용 참조 |
9.4 현재 프로젝트 T/S 구성 비교¶
| 구성 요소 | 현재 프로젝트 |
|---|---|
| Teacher | GWN (Graph WaveNet), N=50 가구, hidden_dim=32, layers=4 |
| Student | DLinear (individual=True), seq_len=96, pred_len=24, ~4,656 params |
| KD 방식 | Response-based (Soft-DTW Loss) |
| 도메인 | 가정용 전력 소비 시계열, PAPE 최소화 목적 |
| 현재 한계 | A_adp (공간 관계 정보) 미전달 |
10. TSFM Teacher 적용 가능성 분석¶
현재 프로젝트 컨텍스트: Student = DLinear (~4,656 params), seq_len=96, pred_len=24, 가정용 전력 소비, PAPE 최소화
10.1 TSFM별 상세 분석¶
Chronos (Amazon, 2024) — 현재 프로젝트에 존재 (pretrained_models/)¶
| 항목 | 내용 |
|---|---|
| 아키텍처 | T5 기반 Encoder-Decoder Transformer |
| 파라미터 | tiny(8M) ~ large(710M), Chronos-Bolt는 Bolt-tiny(9M) ~ Bolt-base(205M) |
| 학습 방식 | 시계열 값을 이산 토큰으로 변환 (스케일링 + 균일 빈 양자화) → Cross-entropy 손실 |
| 도메인 적합성 | 범용 (에너지 포함), 멀티도메인 제로샷 가능 |
| KD Teacher 가능성 | 높음 |
| hidden 추출 가능 여부 | 가능 — T5 Encoder 최종 hidden state (last_hidden_state) 추출 가능. BaseChronosPipeline을 통해 내부 T5 모델에 직접 접근 가능 |
| KD 실제 사용 사례 | DistilTS (ICASSP 2026)에서 Chronos를 Teacher로 DLinear/iTransformer를 Student로 사용 — 직접적 선례 존재 |
| 주요 고려 사항 | Chronos는 확률적 예측 출력 (분위수 예측). Response-based KD 시 median/mean 예측값 사용. Feature-based KD 시 Encoder hidden state 차원 (T5-small: 512, T5-base: 768) → projector 필요 |
TimesFM (Google, 2024)¶
| 항목 | 내용 |
|---|---|
| 아키텍처 | Decoder-only Transformer (GPT 계열), Patch 기반 토큰화 |
| 파라미터 | 200M |
| 학습 방식 | 100B 실세계 시점 데이터로 사전학습, 자기회귀 생성 |
| 도메인 적합성 | 범용 (에너지 포함), 제로샷 성능 우수 |
| KD Teacher 가능성 | 중간~높음 |
| hidden 추출 가능 여부 | 가능하나 제한적 — Decoder-only 구조이므로 별도 Encoder hidden state 없음. 마지막 Transformer 레이어의 hidden state 추출은 가능하지만 API 접근성 제한 (OSS 공개 범위 확인 필요) |
| KD 실제 사용 사례 | DistilTS에서 Teacher로 사용. 단, Weather 데이터셋은 TimesFM 학습 데이터에 포함되어 있어 해당 데이터셋에서 제외됨 |
| 주요 고려 사항 | huggingface 공개 모델 (google/timesfm-1.0-200m), 로컬 설치 필요 |
Moirai (Salesforce, 2024)¶
| 항목 | 내용 |
|---|---|
| 아키텍처 | Masked Encoder-only Transformer, 다중 패치 크기 projection |
| 파라미터 | Moirai-small(14M) ~ Moirai-large(311M) |
| 학습 방식 | LOTSA 데이터셋 (270억 관측치, 9개 도메인), Masked Reconstruction |
| 도메인 적합성 | 에너지 예측 명시적 지원 (9개 도메인 중 에너지 포함) |
| KD Teacher 가능성 | 높음 |
| hidden 추출 가능 여부 | 가능 — Encoder 구조이므로 last_hidden_state 직접 추출 가능. Moirai-MoE 변형은 Sparse MoE 구조로 표현력 더 높음 |
| KD 실제 사용 사례 | DistilTS에서 Teacher 후보로 평가. TimeMoe/Chronos보다 성능 낮아 기본 실험에서 후순위 |
| 주요 고려 사항 | uni2ts 패키지 필요. any-variate attention 지원으로 다변량 입력 처리 유연 |
Timer (Tsinghua, 2024)¶
| 항목 | 내용 |
|---|---|
| 아키텍처 | Decoder-only GPT-style Transformer, Patch 기반 단일 시계열 시퀀스(S3) |
| 파라미터 | Timer-base: 84M (HuggingFace 공개), Timer-S1: 8.3B (MoE, 0.75B activated) |
| 학습 방식 | UTSD (10억 시점), 자기회귀 생성 사전학습 |
| 도메인 적합성 | 범용 (교통, 기상, 에너지 포함 7개 도메인) |
| KD Teacher 가능성 | 중간 |
| hidden 추출 가능 여부 | 가능 — HuggingFace 공개 모델 (thuml/timer-base-84m), GPT2 계열 구조이므로 hidden_states 접근 표준화됨 |
| KD 실제 사용 사례 | DistilTS에서 TimeMoe (MoE 변형)를 Teacher로 사용. Timer-base는 직접 사용 사례 미확인 |
| 주요 고려 사항 | 단변량(univariate) 사전학습 모델 — 다변량 EC 입력 처리 시 추가 적응 필요 |
UniTS (Harvard, NeurIPS 2024)¶
| 항목 | 내용 |
|---|---|
| 아키텍처 | Modified Transformer (Sequence + Variable Attention + Dynamic Linear), 멀티태스크 통합 |
| 파라미터 | 확인 필요 (공개 정보 제한적) |
| 학습 방식 | Masked Reconstruction 사전학습, Forecasting + Classification + Imputation + Anomaly Detection 공동 학습 |
| 도메인 적합성 | 38개 데이터셋 (헬스케어, 공학, 금융 등) — 에너지 직접 명시는 제한적 |
| KD Teacher 가능성 | 낮음~중간 |
| hidden 추출 가능 여부 | 가능하나 복잡 — 멀티태스크 통합 구조로 hidden state 의미가 태스크 의존적 |
| KD 실제 사용 사례 | DistilTS 등 주요 KD 연구에서 Teacher로 사용된 사례 미확인 |
| 주요 고려 사항 | 에너지 도메인 특화도 낮음, Teacher로서 우선순위 낮음 |
10.2 TSFM Teacher 적용 가능성 종합 비교¶
| TSFM | Teacher 적합성 | hidden 추출 | 에너지 도메인 | KD 선례 | 로컬 가용성 | 권장 순위 |
|---|---|---|---|---|---|---|
| Chronos | 높음 | T5 Encoder last_hidden_state |
O (범용) | DistilTS (직접 사용) | 이미 존재 (pretrained_models/) |
1순위 |
| Moirai | 높음 | Encoder last_hidden_state |
O (에너지 명시) | DistilTS (평가됨) | uni2ts 설치 필요 |
2순위 |
| TimesFM | 중간~높음 | Decoder hidden 추출 제한적 | O (범용) | DistilTS (평가됨) | 별도 설치 필요 | 3순위 |
| Timer | 중간 | GPT2 hidden_states 표준 접근 | O (7개 도메인) | DistilTS (TimeMoe 변형) | HuggingFace 공개 | 4순위 |
| UniTS | 낮음~중간 | 복잡 (멀티태스크 혼재) | 제한적 | 미확인 | GitHub 공개 | 5순위 |
10.3 현재 GWN Teacher 대비 TSFM Teacher의 장단점¶
| 비교 항목 | GWN Teacher (현재) | Chronos Teacher (제안) |
|---|---|---|
| 공간 관계 학습 | A_adp (학습된 적응형 인접 행렬) | 없음 (단변량/시간 축만) |
| 예측 정확도 | EC 데이터 특화 학습 가능 | 제로샷 범용 성능 |
| Hidden 표현 | 시공간 hidden state [B, N, D, T] | 시간 hidden state [B, T, D] |
| Feature KD | 가구별 공간 관계 정보 전달 가능 | 시간 패턴 정보 전달 가능 |
| 학습 필요 여부 | 별도 사전학습 필요 (현재 N=50 진행 중) | 불필요 (사전학습 완료) |
| 논문 기여 차별성 | 에너지 커뮤니티 특화 그래프 KD | TSFM KD (DistilTS와 유사 → 차별화 어려움) |
10.4 결론 및 권고¶
현재 프로젝트에서 TSFM Teacher 도입 시 고려사항:
-
Chronos는 즉시 활용 가능: 이미
pretrained_models/에 존재하고, DistilTS 코드가src/DistilTS-ICASSP2026/에 참조 구현으로 존재. Feature-based KD 시 T5 Encoder의encoder_last_hidden_state([B, seq_len/patch, 512]) 추출 후 projector로 DLinear 예측 차원과 정렬 가능. -
논문 차별화 관점: Chronos/TSFM → DLinear KD는 DistilTS (ICASSP 2026)이 이미 선점. GWN (공간 관계 학습) + Chronos (시간 패턴)의 하이브리드 Teacher, 또는 에너지 커뮤니티 특화 그래프 KD가 차별화 포인트.
-
권장 전략: GWN Teacher (공간 정보) + Chronos Teacher (시간 정보)를 앙상블 Teacher로 사용하는 Dual-Teacher KD 접근이 논문 기여도 측면에서 가장 유망. 이는 기존 TSFM KD 연구와 그래프 기반 ST-KD 연구를 통합하는 새로운 접근.