콘텐츠로 이동

GWN Adjacency Matrix 전달 방법론 분석

작성일: 2026-04-08 목적: GWN Teacher의 학습된 Adjacency Matrix (A_adp)를 Student에 전달하는 방법론 조사 및 비교 배경: 현재 GWN → DLinear KD는 Soft Target(출력값)만 전달하며, Teacher가 학습한 공간 관계 정보(A_adp)는 버려지고 있음


1. 현재 구현 상태

현재 GWN Teacher → DLinear Student의 지식 전달 경로:

GWN Teacher
  ├─ E1, E2 (학습된 노드 임베딩) ← 사용되지 않음
  ├─ A_adp = Softmax(ReLU(E1 @ E2^T)) ← GWN 내부에서만 사용
  └─ y_hat_gwn[:, household_idx, :] → Soft Target [B, pred_len]
Student DLinear → s_out [B, pred_len] ← Soft-DTW Loss

전달되는 것: 가구별 예측값 (Response-based KD)
전달되지 않는 것: 가구 간 관계 구조 (A_adp), 중간 표현 (hidden states), 노드 임베딩 (E1, E2)


2. KD 분류 체계에서의 위치

Knowledge Distillation의 3대 분류 (Gou et al., 2021 — "Knowledge Distillation: A Survey"):

분류 전달 대상 현재 구현 Adj. Matrix 전달
Response-based Teacher 출력 (soft target) O (현재 방식) 해당 없음
Feature-based 중간 레이어의 hidden representation X 방법 A, B, C
Relation-based 데이터 간 관계 구조 X 방법 D, E

A_adp 전달은 Feature-based 또는 Relation-based KD에 해당한다.


3. 방법론별 상세 분석

방법 A: Graph Embedding Injection (노드 임베딩 직접 주입)

핵심 아이디어: GWN이 학습한 E1, E2에서 특정 가구의 임베딩을 추출하여 Student의 입력 또는 bias로 주입

수식: $\(e_i = [E_1[i, :] \| E_2[i, :]] \in \mathbb{R}^{2d_e}\)$ $\(\text{Student bias} = \text{MLP}(e_i) \in \mathbb{R}^{pred\_len}\)$

구현 방향:

# DLinear에 조건부 bias 추가
class DLinearWithGraphContext(DLinear):
    def __init__(self, seq_len, pred_len, channels, graph_embed_dim):
        super().__init__(seq_len, pred_len, channels)
        self.context_proj = nn.Linear(graph_embed_dim, pred_len)

    def forward(self, x, graph_embed=None):
        x_out = super().forward(x)  # [B, P, D]
        if graph_embed is not None:
            bias = self.context_proj(graph_embed)  # [pred_len]
            x_out = x_out + bias.unsqueeze(0).unsqueeze(-1)
        return x_out

관련 논문: - FiLM: Visual Reasoning with a General Conditioning Layer (Perez et al., AAAI 2018) - 조건부 feature 변조의 일반 프레임워크 - \(\gamma = f(c), \beta = g(c)\)로 hidden layer를 변조 - Node2Vec (Grover & Leskovec, KDD 2016) - 그래프 노드 임베딩을 다운스트림 태스크의 feature로 활용하는 선례

장점: - DLinear 구조 변경 최소 (bias 추가만) - 구현 매우 간단 - 학습 불안정성 낮음

단점: - E1, E2가 정적(시간 불변)이므로, 시간에 따라 변하는 관계를 반영하지 못함 - 임베딩 차원(2 x embed_dim = 20)이 작아 정보 용량 제한적 - GWN Teacher가 제대로 학습되지 않으면 노이즈만 주입

난이도: 낮음
구현 소요: 0.5일
추가 파라미터: ~480개 (20 → 24 linear)


방법 B: Adjacency Row as Auxiliary Feature (관계 벡터 입력 확장)

핵심 아이디어: A_adp의 i번째 행 (가구 i와 모든 가구의 관계 강도)을 Student 입력의 추가 채널로 결합

수식: $\(a_i = A_{adp}[i, :] \in \mathbb{R}^N\)$ $\(x'_{input} = [x_{ind} \| \text{repeat}(a_i, \text{seq\_len})] \in \mathbb{R}^{B \times \text{seq\_len} \times (1 + N)}\)$

관련 논문: - STGCN: Spatio-Temporal Graph Convolutional Networks (Yu et al., IJCAI 2018) - 그래프 구조 정보를 시계열 모델에 통합 - GTS: Discrete Graph Structure Learning for Forecasting Multiple Time Series (Shang et al., ICLR 2021) - 학습된 그래프 구조를 예측 모델의 조건으로 활용

구현 방향:

# ECPairDataset에 adj_row 추가
a_i = gwn_teacher.get_adaptive_adj()[household_idx].detach()  # [N]
# Student 입력: [B, seq_len, 1] → [B, seq_len, 1+N]
x_augmented = torch.cat([x_ind, a_i.expand(B, seq_len, N)], dim=-1)
# DLinear(channels=1+N) 또는 individual=True

장점: - 직관적 — "이 가구는 어떤 이웃과 얼마나 관련있는가"를 명시적으로 전달 - N=50이면 50차원 관계 벡터 → 풍부한 공간 정보

단점: - DLinear 구조 변경 필수: channels=1channels=1+N - individual=True면 Linear 레이어 51개 → 파라미터 급증 - individual=False면 모든 채널이 같은 가중치 공유 → 관계 정보 희석 - 정적 feature가 seq_len만큼 반복되어 비효율적 - N이 커지면 Student가 더 이상 "경량"이 아님

난이도: 중간
구현 소요: 1일
추가 파라미터: ~4,900개 (N=50, individual=False) 또는 ~245,000개 (individual=True)


방법 C: Feature-based KD — Hidden Representation Alignment

핵심 아이디어: Teacher(GWN)의 중간 레이어 출력과 Student의 출력 사이의 정렬 손실을 추가

수식: $\(L_{feat} = \text{MSE}(\phi_s(h^S), \phi_t(h^T_i))\)$

여기서 \(h^T_i\)는 GWN의 특정 레이어에서 가구 i에 대응하는 hidden state, \(\phi_s, \phi_t\)는 차원 정렬 projector

관련 논문: - FitNet: Hints for Thin Deep Nets (Romero et al., ICLR 2015) - Teacher의 중간 레이어 출력을 Student의 hint로 사용 - \(L_{HT} = \|u_h(x; W_{Hint}) - r(v_g(x; W_{Guided}); W_r)\|^2\) - Attention Transfer (Zagoruyko & Komodakis, ICLR 2017) - Teacher의 attention map을 Student에 전달 - SDKD: Spectral Decoupled Knowledge Distillation (Li et al., arXiv 2507.02939, 2025) - 시공간 예측에 특화된 KD — Teacher의 latent space에서 고주파/저주파를 분리하여 전달 - 주파수 정렬 전략으로 Student의 고주파 과적합/저주파 과소적합 완화 - 우리 세팅과 가장 유사한 문제를 다룸 (시공간 예측 경량화) - DistilTS (ICASSP 2026, 현재 프로젝트 참조 논문) - FTA (Factorized Temporal Alignment) 모듈로 Teacher-Student 아키텍처 불일치 해소 - Hidden embedding \(H^T\)\(H^S\)를 정렬

구현 방향:

# GWN의 마지막 ST Block 출력에서 가구 i의 hidden state 추출
# h_gwn: [B, N, hidden_dim, T] → h_gwn[:, household_idx, :, -1] → [B, hidden_dim]
# Student의 last_features: [B, D, P] → projector → [B, hidden_dim]

class FeatureAlignedTrainer(GWNSoftDTWTrainer):
    def __init__(self, ...):
        super().__init__(...)
        self.projector = nn.Linear(student.pred_len, gwn_teacher_hidden_dim)

    def train_epoch(self, epoch):
        # ... 기존 KD loss ...
        h_teacher = self.gwn_teacher.get_hidden(x_all)[:, self.household_idx, :, -1]
        h_student = self.projector(s_out_1d)
        l_feat = F.mse_loss(h_student, h_teacher.detach())
        loss = l_task + lambda1 * l_kd + lambda_feat * l_feat

장점: - A_adp의 효과가 이미 hidden state에 반영되어 있으므로, 간접적이지만 완전한 공간 정보 전달 - KD 문헌에서 가장 연구가 많은 방법 — 이론적 근거 풍부 - 다양한 레이어에서 추출 가능 (multi-scale hints)

단점: - GWN forward에서 중간 출력을 추출하도록 모델 수정 필요 - Projector 차원 설계가 성능에 민감 - Teacher hidden dim과 Student 표현 간 의미 공간이 다를 수 있음 (architectural gap) - 추가 연산: GWN forward 시 중간 출력 저장 + projector forward/backward

난이도: 중간~높음
구현 소요: 1.5~2일
추가 파라미터: ~768개 (24 → 32 projector)


방법 D: Relational KD — 가구 간 관계 구조 전달

핵심 아이디어: Teacher가 학습한 가구 간 "관계 패턴"을 Student들의 출력 간 관계로 재현시킴. A_adp를 직접 전달하는 것이 아니라, A_adp가 인코딩한 관계 구조를 Student 앙상블의 출력에 반영.

수식: $\(R^T_{ij} = \frac{y^T_i \cdot y^T_j}{\|y^T_i\| \|y^T_j\|} \quad \text{(Teacher 가구 쌍 유사도)}\)$ $\(R^S_{ij} = \frac{y^S_i \cdot y^S_j}{\|y^S_i\| \|y^S_j\|} \quad \text{(Student 가구 쌍 유사도)}\)$ $\(L_{RKD} = \sum_{i,j} \|R^T_{ij} - R^S_{ij}\|^2\)$

관련 논문: - Relational Knowledge Distillation (Park et al., CVPR 2019) - 개별 출력이 아닌 데이터 간 "관계"를 전달하는 패러다임 - Distance-wise RKD: \(\psi_d(t_i, t_j) = \frac{1}{\mu}\|t_i - t_j\|_2\) - Angle-wise RKD: \(\psi_a(t_i, t_j, t_k) = \cos \angle t_i t_j t_k\) - Teacher와 Student 간 관계 구조의 유사성을 최적화 - CRD: Contrastive Representation Distillation (Tian et al., ICLR 2020) - 관계 구조를 contrastive learning 프레임워크로 전달 - Teacher-Student 간 mutual information 최대화 - STGNN-Distill (cited in SDKD, 2025) - 시공간 그래프 신경망에서 attention distillation으로 장거리 의존성 전달

구현 방향:

# 5가구 Student를 동시에 학습하며 관계 구조 정렬
# GWN Teacher: y_hat_gwn [B, N, pred_len] → 가구 쌍 유사도 행렬 [N, N]
# Students: y_hat_students [N, B, pred_len] → 가구 쌍 유사도 행렬 [N, N]

def relational_kd_loss(teacher_preds, student_preds):
    """
    teacher_preds: [B, N, pred_len] (GWN 출력)
    student_preds: [N, B, pred_len] (N개 Student의 출력)
    """
    # Teacher 관계 행렬
    t_flat = teacher_preds.permute(1, 0, 2).reshape(N, -1)  # [N, B*P]
    R_T = F.cosine_similarity(t_flat.unsqueeze(1), t_flat.unsqueeze(0), dim=-1)

    # Student 관계 행렬
    s_flat = student_preds.reshape(N, -1)  # [N, B*P]
    R_S = F.cosine_similarity(s_flat.unsqueeze(1), s_flat.unsqueeze(0), dim=-1)

    return F.mse_loss(R_S, R_T.detach())

장점: - A_adp가 인코딩한 관계 정보를 가장 충실하게 재현 - 이론적으로 가장 탄탄 (CVPR 2019, 인용 2000+) - Student 아키텍처 변경 불필요 — DLinear 그대로 유지 - 논문에서 인용 가치가 높음 (Relation-based KD를 에너지 도메인에 적용한 사례 거의 없음)

단점: - 5가구 Student를 동시에 학습해야 함 → 현재 가구별 독립 학습 파이프라인 대폭 수정 - 학습 시 GWN forward + 5개 Student forward가 매 batch 필요 → 메모리/시간 증가 - 관계 행렬 계산이 배치 크기에 민감 (작은 배치에서 불안정) - Multi-student 동시 학습의 수렴 안정성 미검증

난이도: 높음
구현 소요: 2~3일
추가 파라미터: 0개 (Student 구조 변경 없음, 손실 함수만 추가)


방법 E: A_adp 직접 정규화 — Adjacency-Guided Loss

핵심 아이디어: A_adp를 KD loss의 가중치 또는 정규화 항으로 활용. 이웃 관계가 강한 가구의 Teacher 신호를 더 강하게 반영.

수식 (Variant 1 — 적응형 lambda): $\(\lambda_i^{adapt} = \lambda_{base} \cdot (1 + \beta \cdot A_{adp}[i, i])\)$

\(A_{adp}[i, i]\)가 높으면 GWN이 해당 가구를 "자기 자신의 과거"에 의존해서 예측 → Teacher 예측 신뢰도 높음 → KD 가중치 증가

수식 (Variant 2 — 이웃 가중 soft target): $\(y^{soft}_{weighted} = \sum_{j=1}^{N} A_{adp}[i, j] \cdot y^T_j\)$

단순히 가구 i의 Teacher 예측만 쓰는 것이 아니라, 이웃 가구들의 예측을 A_adp 가중 평균으로 혼합

관련 논문: - Adaptive Knowledge Distillation (Jin et al., AAAI 2021) - 인스턴스별 적응형 KD 가중치 - Graph Knowledge Distillation (Yang et al., CVPR 2022) - 그래프 구조를 KD 가중치로 활용

구현 방향:

# Variant 2: 이웃 가중 soft target
A_adp = gwn_teacher.get_adaptive_adj().detach()  # [N, N]
y_hat_all = gwn_teacher(x_all)  # [B, N, pred_len]

# 가구 i의 weighted soft target
weights = A_adp[household_idx]  # [N]
y_soft_weighted = torch.einsum('n,bnp->bp', weights, y_hat_all)  # [B, pred_len]

# KD Loss
l_kd = soft_dtw_kd_loss(s_out_1d, y_soft_weighted, gamma=gamma)

장점: - 기존 파이프라인 변경 최소 — soft target 계산 방식만 수정 - A_adp의 공간 정보를 자연스럽게 반영 - 구현 매우 간단

단점: - 간접적 활용이므로 A_adp의 정보가 희석될 수 있음 - Variant 2는 이웃 예측의 가중 평균이므로 smooth된 target → 피크 예측 약화 가능 - 이론적 근거가 다른 방법들에 비해 약함

난이도: 매우 낮음
구현 소요: 0.5일 이내
추가 파라미터: 0개


4. 방법론 종합 비교

방법 전달 정보 DLinear 수정 난이도 소요 추가 params 이론 근거 논문 가치
A. Graph Embedding Injection E1, E2 임베딩 bias 추가 낮음 0.5일 ~480 중 (FiLM) 낮음
B. Adj Row Feature A_adp[i,:] 행벡터 채널 확장 1일 ~5K~245K 중 (STGCN)
C. Hidden Alignment GWN hidden states 불필요 (projector) 중~높 1.5~2일 ~768 강 (FitNet, SDKD) 높음
D. Relational KD 가구 간 관계 구조 불필요 높음 2~3일 0 매우 강 (CVPR 2019) 매우 높음
E. Adj-Guided Loss A_adp 가중치 불필요 매우 낮 0.5일 0 낮음

5. 추천 실행 순서

Phase 1: 빠른 검증 (0.5~1일)

방법 E (Adj-Guided Loss) 먼저 적용: - 기존 코드 변경 최소 - GWN Teacher가 제대로 학습된 후 A_adp의 "질"을 빠르게 확인 가능 - Variant 2 (이웃 가중 soft target)로 A_adp 활용 효과의 상한선 측정

Phase 2: 핵심 실험 (1.5~2일)

방법 C (Hidden Alignment) 적용: - Feature-based KD의 표준적 접근 - GWN의 공간-시간 특징을 Student에 직접 전달 - SDKD/DistilTS와 연결하여 논문에서 방법론적 기여 주장 가능

Phase 3: 논문 차별화 (2~3일, 선택적)

방법 D (Relational KD) 적용: - 에너지 도메인에서 Relational KD 적용 사례가 거의 없음 → 새로운 기여 - 5가구 동시 학습 파이프라인 구축 필요 - Phase 2 결과가 유의미할 경우에만 진행


6. 전제 조건

위 모든 방법의 공통 전제:

  1. GWN Teacher가 DLinear보다 우수해야 함 — Teacher MSE < 0.5207 (M0 Baseline)
  2. 현재 GWN Teacher MSE = 0.5858 (12.5% 열등) → 재학습 필수
  3. 0407_revised_GWN_KD_experiment.md의 Phase 1 (N=50, hidden_dim=64, num_layers=8) 완료 후 진행

  4. DataLoader 시간 정렬 버그 수정 — Critic C3 대응 완료 후

  5. 현재 구현(_precompute_soft_targets)은 이미 수정되었으나, 중간 hidden state 추출은 별도 구현 필요

  6. A_adp의 의미 검증 — Teacher가 학습한 A_adp가 실제로 유의미한 가구 관계를 포착하는지 시각화 확인

    A = gwn_teacher.get_adaptive_adj().detach().cpu().numpy()
    sns.heatmap(A, xticklabels=household_names, yticklabels=household_names)
    


7. 핵심 참고 논문

논문 연도 핵심 기여 관련 방법
Lin & Wu, "Electric Load Forecasting via ST-KD" (IEEE Trans. Power Syst.) 2024 GWN Teacher → MLP Student, Soft Target KD, 개인정보 보호 분산 학습 현재 구현의 기반
Lin & Wu, "Residential Electric Load Forecasting via Attentive Transfer of GNN" (IJCAI) 2021 GWN 기반 교사 → 학습된 그래프 구조를 Attentive Transfer로 전달 방법 D 참조
Wu & Lin, "Efficient Residential LF via TL and GNN" (IEEE Trans. Smart Grid) 2022 GNN + Attentive Transfer Framework, 데이터 부족 상황 대응 방법 D 참조
Park et al., "Relational Knowledge Distillation" (CVPR) 2019 관계 구조 기반 KD (Distance-wise, Angle-wise) 방법 D
Romero et al., "FitNet: Hints for Thin Deep Nets" (ICLR) 2015 중간 레이어 hint 기반 Feature KD 방법 C
Zagoruyko & Komodakis, "Paying More Attention to Attention" (ICLR) 2017 Attention map Transfer KD 방법 C
Li et al., "SDKD: Frequency-Aligned KD for Lightweight ST Forecasting" (ICCV) 2025 시공간 예측 특화 주파수 정렬 KD, 고주파/저주파 분리 전달 방법 C
DistilTS (ICASSP) 2026 TSFM→경량 Student KD, FTA 모듈, Horizon-Weighted Loss 방법 C (TSFM Teacher)
Tian et al., "CRD: Contrastive Representation Distillation" (ICLR) 2020 Contrastive 관계 KD, Teacher-Student Mutual Information 최대화 방법 D
Jin et al., "Adaptive Knowledge Distillation" (AAAI) 2021 인스턴스별 적응형 KD 가중치 방법 E
Yang et al., "Graph Knowledge Distillation" (CVPR) 2022 그래프 구조를 KD 가중치로 활용 방법 E
Yu et al., "STGCN" (IJCAI) 2018 시공간 그래프 CNN (ST-Conv Block, 완전 합성곱 구조) 방법 B 참조
Shang et al., "GTS: Discrete Graph Structure Learning for TS Forecasting" (ICLR) 2021 학습된 그래프 구조를 예측 조건으로 활용 방법 B 참조
Perez et al., "FiLM: Visual Reasoning" (AAAI) 2018 조건부 feature 변조 방법 A
Gou et al., "Knowledge Distillation: A Survey" 2021 KD 분류 체계 (Response/Feature/Relation) 전체 프레임워크

8. 결론

현재 Response-based KD(Soft Target만 전달)의 효과가 미미한 근본 원인은, GWN Teacher의 핵심 가치인 공간 관계 정보(A_adp)가 Student에 전달되지 않기 때문이다.

이를 해결하기 위한 가장 현실적인 경로는: 1. 방법 E (Adj-Guided Loss)로 A_adp 활용 가능성 빠르게 검증 2. 방법 C (Hidden Alignment)로 본격적 Feature-based KD 수행 3. 결과가 유의미하면 방법 D (Relational KD)로 논문 차별화

단, 이 모든 것은 GWN Teacher 재학습(N=50) 성공 이후에만 의미가 있다.


9. 논문별 Teacher-Student 모델 구성

조사 기준일: 2026-04-08. 검색 결과가 불확실한 경우 "확인 필요" 표시.

9.1 에너지/시계열 도메인 KD 논문

논문 Teacher 모델 Teacher 크기 Student 모델 Student 크기 도메인 KD 방식
Lin & Wu, "Electric Load Forecasting via ST-KD" (IEEE TPS, 2024) GWN (Graph WaveNet) ~500K params, N×N 노드 그래프 개별 가구 MLP (경량) 소형 (~수천 params 추정) 가정용 전력 부하 예측 Response-based (Soft Target)
Lin & Wu, "Residential ELF via Attentive Transfer of GNN" (IJCAI, 2021) GNN 기반 집합 모델 (GWN 계열, 출처 도메인) 대형 개별 가구 예측 모델 (목표 도메인) 소형 가정용 전력 부하 예측 Feature-based (Attentive Transfer)
Wu & Lin, "Efficient Residential LF via TL and GNN" (IEEE TSG, 2022) 멀티소스 GNN (소스 도메인) 대형 타겟 도메인 경량 모델 소형 가정용 전력 부하 예측 Feature-based (Attention 기반 Transfer)
DistilTS (ICASSP, 2026) Chronos (Amazon T5 기반) / TimesFM (Google Decoder-only) / TimeMoe (MoE) / Moirai (Salesforce Encoder) 20M~710M params DLinear / iTransformer ~4K / ~수백K params 범용 시계열 예측 (멀티도메인) Feature-based (FTA: Factorized Temporal Alignment) + Response-based (Horizon-Weighted Loss)
SDKD / "Frequency-Aligned KD for Lightweight ST Forecasting" (ICCV, 2025) Encoder-Latent Evolution-Decoder 구조 Teacher (Convolution + Transformer 기반) 대형 (구체적 아키텍처 공개 확인 필요) 경량 CNN/MLP Student 소형 교통·기상 등 시공간 예측 Feature-based (Spectral/Frequency-Aligned, 고주파·저주파 분리)

9.2 일반 KD 방법론 논문 (Computer Vision 기반)

논문 Teacher 모델 Teacher 크기 Student 모델 Student 크기 도메인 KD 방식
Romero et al., FitNet (ICLR, 2015) 넓고 얕은 CNN (Wide Net) 대형 (예: 넓은 ResNet 계열) 깊고 얇은 CNN (Thin Deep Net) 파라미터 ~10× 적음 (CIFAR-10 실험 기준) 이미지 분류 (CIFAR-10, SVHN 등) Feature-based (Hint Layer → Guided Layer)
Zagoruyko & Komodakis, AT (ICLR, 2017) Wide ResNet (WRN-40-2 등) 대형 얕은/좁은 ResNet (WRN-16-2 등) 소형 이미지 분류 (CIFAR-10/100, ImageNet) Feature-based (Attention Map Transfer)
Park et al., RKD (CVPR, 2019) ResNet-50 / VGG 등 대형 ResNet-18 / 소형 네트워크 소형 이미지 분류, Metric Learning Relation-based (Distance-wise, Angle-wise Relation)
Tian et al., CRD (ICLR, 2020) ResNet-50, VGG-13 등 대형 ResNet-18, ShuffleNet 등 소형 이미지 분류 (CIFAR-100, STL-10, ImageNet) Relation-based (Contrastive Mutual Information 최대화)
Jin et al., Adaptive KD (AAAI, 2021) 대형 CNN (ResNet-50 등) 대형 소형 CNN 소형 이미지 분류 Response-based + 적응형 가중치 (Instance-wise lambda)
Yang et al., Graph KD (CVPR, 2022) 대형 CNN / GNN 기반 Teacher 대형 소형 CNN / MLP 소형 이미지 분류 / 그래프 기반 태스크 Relation-based (그래프 구조 기반 KD 가중치)

9.3 그래프 기반 시계열 모델 (KD 직접 적용 없음, 아키텍처 참조)

논문 모델 아키텍처 핵심 도메인 본 프로젝트 관련성
Yu et al., STGCN (IJCAI, 2018) STGCN ST-Conv Block (Temporal Gated Conv × 2 + Spatial GCN) + FC 출력층 교통 속도·유량 예측 방법 B의 그래프 정보 활용 참조
Shang et al., GTS (ICLR, 2021) GTS 확률적 그래프 구조 학습 + GRU 예측 모델 교통·기상 멀티변량 TS 방법 B의 학습된 그래프 구조 활용 참조

9.4 현재 프로젝트 T/S 구성 비교

구성 요소 현재 프로젝트
Teacher GWN (Graph WaveNet), N=50 가구, hidden_dim=32, layers=4
Student DLinear (individual=True), seq_len=96, pred_len=24, ~4,656 params
KD 방식 Response-based (Soft-DTW Loss)
도메인 가정용 전력 소비 시계열, PAPE 최소화 목적
현재 한계 A_adp (공간 관계 정보) 미전달

10. TSFM Teacher 적용 가능성 분석

현재 프로젝트 컨텍스트: Student = DLinear (~4,656 params), seq_len=96, pred_len=24, 가정용 전력 소비, PAPE 최소화

10.1 TSFM별 상세 분석

Chronos (Amazon, 2024) — 현재 프로젝트에 존재 (pretrained_models/)

항목 내용
아키텍처 T5 기반 Encoder-Decoder Transformer
파라미터 tiny(8M) ~ large(710M), Chronos-Bolt는 Bolt-tiny(9M) ~ Bolt-base(205M)
학습 방식 시계열 값을 이산 토큰으로 변환 (스케일링 + 균일 빈 양자화) → Cross-entropy 손실
도메인 적합성 범용 (에너지 포함), 멀티도메인 제로샷 가능
KD Teacher 가능성 높음
hidden 추출 가능 여부 가능 — T5 Encoder 최종 hidden state (last_hidden_state) 추출 가능. BaseChronosPipeline을 통해 내부 T5 모델에 직접 접근 가능
KD 실제 사용 사례 DistilTS (ICASSP 2026)에서 Chronos를 Teacher로 DLinear/iTransformer를 Student로 사용 — 직접적 선례 존재
주요 고려 사항 Chronos는 확률적 예측 출력 (분위수 예측). Response-based KD 시 median/mean 예측값 사용. Feature-based KD 시 Encoder hidden state 차원 (T5-small: 512, T5-base: 768) → projector 필요

TimesFM (Google, 2024)

항목 내용
아키텍처 Decoder-only Transformer (GPT 계열), Patch 기반 토큰화
파라미터 200M
학습 방식 100B 실세계 시점 데이터로 사전학습, 자기회귀 생성
도메인 적합성 범용 (에너지 포함), 제로샷 성능 우수
KD Teacher 가능성 중간~높음
hidden 추출 가능 여부 가능하나 제한적 — Decoder-only 구조이므로 별도 Encoder hidden state 없음. 마지막 Transformer 레이어의 hidden state 추출은 가능하지만 API 접근성 제한 (OSS 공개 범위 확인 필요)
KD 실제 사용 사례 DistilTS에서 Teacher로 사용. 단, Weather 데이터셋은 TimesFM 학습 데이터에 포함되어 있어 해당 데이터셋에서 제외됨
주요 고려 사항 huggingface 공개 모델 (google/timesfm-1.0-200m), 로컬 설치 필요

Moirai (Salesforce, 2024)

항목 내용
아키텍처 Masked Encoder-only Transformer, 다중 패치 크기 projection
파라미터 Moirai-small(14M) ~ Moirai-large(311M)
학습 방식 LOTSA 데이터셋 (270억 관측치, 9개 도메인), Masked Reconstruction
도메인 적합성 에너지 예측 명시적 지원 (9개 도메인 중 에너지 포함)
KD Teacher 가능성 높음
hidden 추출 가능 여부 가능 — Encoder 구조이므로 last_hidden_state 직접 추출 가능. Moirai-MoE 변형은 Sparse MoE 구조로 표현력 더 높음
KD 실제 사용 사례 DistilTS에서 Teacher 후보로 평가. TimeMoe/Chronos보다 성능 낮아 기본 실험에서 후순위
주요 고려 사항 uni2ts 패키지 필요. any-variate attention 지원으로 다변량 입력 처리 유연

Timer (Tsinghua, 2024)

항목 내용
아키텍처 Decoder-only GPT-style Transformer, Patch 기반 단일 시계열 시퀀스(S3)
파라미터 Timer-base: 84M (HuggingFace 공개), Timer-S1: 8.3B (MoE, 0.75B activated)
학습 방식 UTSD (10억 시점), 자기회귀 생성 사전학습
도메인 적합성 범용 (교통, 기상, 에너지 포함 7개 도메인)
KD Teacher 가능성 중간
hidden 추출 가능 여부 가능 — HuggingFace 공개 모델 (thuml/timer-base-84m), GPT2 계열 구조이므로 hidden_states 접근 표준화됨
KD 실제 사용 사례 DistilTS에서 TimeMoe (MoE 변형)를 Teacher로 사용. Timer-base는 직접 사용 사례 미확인
주요 고려 사항 단변량(univariate) 사전학습 모델 — 다변량 EC 입력 처리 시 추가 적응 필요

UniTS (Harvard, NeurIPS 2024)

항목 내용
아키텍처 Modified Transformer (Sequence + Variable Attention + Dynamic Linear), 멀티태스크 통합
파라미터 확인 필요 (공개 정보 제한적)
학습 방식 Masked Reconstruction 사전학습, Forecasting + Classification + Imputation + Anomaly Detection 공동 학습
도메인 적합성 38개 데이터셋 (헬스케어, 공학, 금융 등) — 에너지 직접 명시는 제한적
KD Teacher 가능성 낮음~중간
hidden 추출 가능 여부 가능하나 복잡 — 멀티태스크 통합 구조로 hidden state 의미가 태스크 의존적
KD 실제 사용 사례 DistilTS 등 주요 KD 연구에서 Teacher로 사용된 사례 미확인
주요 고려 사항 에너지 도메인 특화도 낮음, Teacher로서 우선순위 낮음

10.2 TSFM Teacher 적용 가능성 종합 비교

TSFM Teacher 적합성 hidden 추출 에너지 도메인 KD 선례 로컬 가용성 권장 순위
Chronos 높음 T5 Encoder last_hidden_state O (범용) DistilTS (직접 사용) 이미 존재 (pretrained_models/) 1순위
Moirai 높음 Encoder last_hidden_state O (에너지 명시) DistilTS (평가됨) uni2ts 설치 필요 2순위
TimesFM 중간~높음 Decoder hidden 추출 제한적 O (범용) DistilTS (평가됨) 별도 설치 필요 3순위
Timer 중간 GPT2 hidden_states 표준 접근 O (7개 도메인) DistilTS (TimeMoe 변형) HuggingFace 공개 4순위
UniTS 낮음~중간 복잡 (멀티태스크 혼재) 제한적 미확인 GitHub 공개 5순위

10.3 현재 GWN Teacher 대비 TSFM Teacher의 장단점

비교 항목 GWN Teacher (현재) Chronos Teacher (제안)
공간 관계 학습 A_adp (학습된 적응형 인접 행렬) 없음 (단변량/시간 축만)
예측 정확도 EC 데이터 특화 학습 가능 제로샷 범용 성능
Hidden 표현 시공간 hidden state [B, N, D, T] 시간 hidden state [B, T, D]
Feature KD 가구별 공간 관계 정보 전달 가능 시간 패턴 정보 전달 가능
학습 필요 여부 별도 사전학습 필요 (현재 N=50 진행 중) 불필요 (사전학습 완료)
논문 기여 차별성 에너지 커뮤니티 특화 그래프 KD TSFM KD (DistilTS와 유사 → 차별화 어려움)

10.4 결론 및 권고

현재 프로젝트에서 TSFM Teacher 도입 시 고려사항:

  1. Chronos는 즉시 활용 가능: 이미 pretrained_models/에 존재하고, DistilTS 코드가 src/DistilTS-ICASSP2026/에 참조 구현으로 존재. Feature-based KD 시 T5 Encoder의 encoder_last_hidden_state ([B, seq_len/patch, 512]) 추출 후 projector로 DLinear 예측 차원과 정렬 가능.

  2. 논문 차별화 관점: Chronos/TSFM → DLinear KD는 DistilTS (ICASSP 2026)이 이미 선점. GWN (공간 관계 학습) + Chronos (시간 패턴)의 하이브리드 Teacher, 또는 에너지 커뮤니티 특화 그래프 KD가 차별화 포인트.

  3. 권장 전략: GWN Teacher (공간 정보) + Chronos Teacher (시간 정보)를 앙상블 Teacher로 사용하는 Dual-Teacher KD 접근이 논문 기여도 측면에서 가장 유망. 이는 기존 TSFM KD 연구와 그래프 기반 ST-KD 연구를 통합하는 새로운 접근.

Dual-Teacher KD (제안):
  GWN Teacher  ─── A_adp (공간 관계) ───┐
                                        ├─→ DLinear Student
  Chronos Teacher ─ 시간 hidden (T5) ───┘