작성일: 2026-04-08 최종 업데이트: 2026-04-09 작성자: experiment-critic 대상 문서: docs/reference/kd_method_comparison.md 종합 판정: CONDITIONAL PASS — 전제 조건 미충족 시 전체 무효 현재 상태: Gate 0 PASS (GWN N=50 MSE=0.5049 < 0.5207), Gate 0-A CONDITIONAL PASS, A1/A2/A6 실험 완료

Adjacency Matrix KD 방법론 비판 및 실행 프로세스¶

요약 (Executive Summary)¶

5가지 방법론 제안은 학술적으로 잘 정리되어 있으나, 공통 전제 조건(GWN Teacher > DLinear Baseline)이 현재 충족되지 않은 상태에서 하위 방법론의 우선순위를 논하는 것은 시기상조이다. 또한 일부 방법론(A, B, E)은 정보 전달의 실효성이 이론적으로 의문스럽고, 핵심 방법론(C, D)은 구현 난이도와 검증 비용이 과소평가되어 있다. 실행 순서는 대체로 합리적이나, Gate 조건을 대폭 강화해야 한다.

0. 선결 조건 (Prerequisite Gate) — 모든 방법론의 공통 전제¶

문제점 0-1: GWN Teacher가 Baseline보다 열등한 상태 [CRITICAL]¶

심각도: CRITICAL (이 조건 미충족 시 아래 모든 분석이 무의미)

현황: - GWN Teacher test MSE = 0.5858 (N=5, hidden_dim=32, num_layers=4) - DLinear M0 Baseline 5가구 평균 test MSE = 0.5207 - GWN이 12.5% 열등 — A_adp가 의미 있는 관계를 학습했다는 근거가 없음

핵심 논점: 문서 Section 8에서 "현재 Response-based KD의 효과가 미미한 근본 원인은 A_adp가 Student에 전달되지 않기 때문"이라 주장하나, 이는 인과관계가 아닌 상관관계 추정이다. 더 근본적인 원인은 GWN Teacher 자체가 제대로 학습되지 않아 A_adp에 유의미한 정보가 담기지 않았을 가능성이 크다.

열등한 Teacher에서 추출한 A_adp를 전달하는 것은 "노이즈 주입"과 동일하다. 문서 자체도 방법 A의 단점에서 이를 언급하지만, 이것이 5가지 방법 전체의 블로킹 전제 조건임을 명시적으로 강조하지 않았다.

필수 Gate 조건:

IF GWN_Teacher_MSE >= M0_DLinear_MSE (0.5207):
    → STOP. A_adp 전달 실험 전체 중단.
    → GWN Teacher 재학습 또는 접근 전환.

문제점 0-2: A_adp의 의미 검증이 Gate가 아닌 참고사항으로 처리됨 [MAJOR]¶

심각도: MAJOR

문서 Section 6-3에서 A_adp 시각화를 "확인"하라고 했으나, 이것은 Go/No-Go Gate 조건이어야 한다.

구체적으로 확인해야 할 것: 1. A_adp가 trivial한 uniform distribution이 아닌지 (모든 가구에 동일한 가중치) 2. A_adp 대각선 원소가 과도하게 지배적이지 않은지 (자기 자신만 참조 = 공간 정보 없음) 3. A_adp의 off-diagonal 패턴이 가구 간 실제 유사성(예: 소비 패턴 클러스터)과 정합하는지

필수 Gate 조건 추가:

A_adp 검증 기준:
- entropy(A_adp[i,:]) > threshold (uniform이 아닐 것)
- max(diag(A_adp)) / mean(A_adp) < ratio_threshold (자기 참조 과도 집중 아닐 것)
- A_adp와 가구 소비패턴 유사도 행렬 간 Spearman 상관 > 0.3

1. 방법 A: Graph Embedding Injection — 비판¶

문제점 A-1: 정보 용량 근본 부족 [MAJOR]¶

심각도: MAJOR

E1, E2 임베딩 차원은 embed_dim=10 (제안 설정 20)이므로, 가구 i의 임베딩 벡터는 20차원(210) 또는 40차원(220)이다. 이것을 MLP로 pred_len=24 차원의 bias로 변환한다.

문제: 이 20~40차원 벡터는 시간 불변(time-invariant)이다. 동일 가구에 대해 모든 시간 window에서 같은 bias가 추가된다. 이것은 사실상 가구별 상수 보정(household-specific constant offset)과 동일하다.

DLinear는 이미 개별 가구 데이터로 학습되므로, 가구별 평균 수준 보정은 이미 내재되어 있다. 추가적인 상수 bias가 유의미한 개선을 가져올 이론적 근거가 약하다.

문제점 A-2: FiLM 인용의 적합성 [MINOR]¶

심각도: MINOR

FiLM은 조건별로 다른 입력이 들어올 때 feature를 변조하는 프레임워크이다 (예: "이 이미지에서 빨간 물체를 찾아라" vs "파란 물체를 찾아라"). 여기서는 조건(가구 임베딩)이 학습 전체에 걸쳐 고정이므로, FiLM의 동적 변조 특성과 맞지 않는다.

판정: NO-GO (단독 실험으로는 가치 부족)¶

방법 A는 독립 실험이 아닌, 방법 C 또는 D의 부가 요소로만 고려. 단독 비교 대상에서 제외 권장.

2. 방법 B: Adjacency Row as Auxiliary Feature — 비판¶

문제점 B-1: DLinear 아키텍처와의 근본적 비호환 [CRITICAL]¶

심각도: CRITICAL

DLinear의 핵심 설계는 단변량(univariate) 시계열의 트렌드/계절성 분해이다. - channels=1 (전력 소비량 1차원) - individual=False면 모든 채널이 동일 가중치를 공유

channels를 1에서 1+N=51로 확장하면: - individual=True: Linear 레이어 51개 x 2 (Seasonal+Trend) = 102개 → 파라미터 ~245K → 원래 DLinear(4,656 params)의 52배 → "경량 Student" 목적 위반 - individual=False: 전력 소비와 adjacency weight가 동일 가중치를 공유 → 의미론적 무관한 채널을 동일하게 처리 → 관계 정보 희석 불가피

문제점 B-2: 정적 feature의 시퀀스 반복이 비효율적 [MAJOR]¶

심각도: MAJOR

A_adp[i,:] (N=50차원)를 seq_len=96만큼 반복하여 [B, 96, 51] 입력을 만드는 것은: - 정보량 대비 연산 낭비 (96번 복제된 동일 벡터) - AvgPool1d 기반 MovingAvg decomposition이 정적 채널에 적용되면 원본과 동일 → Seasonal 성분이 0이 됨 → Linear_Seasonal이 학습할 것이 없음

판정: NO-GO (아키텍처 비호환으로 근본적 결함)¶

DLinear를 Student로 유지하는 한 방법 B는 권장하지 않음. Student를 다변량 모델(예: PatchTST)로 교체하지 않는 한 의미 없음.

3. 방법 C: Hidden Representation Alignment — 비판¶

문제점 C-1: GWN에 get_hidden() 메서드가 없음 [MAJOR]¶

심각도: MAJOR

문서의 구현 예시에서 self.gwn_teacher.get_hidden(x_all)을 호출하지만, 현재 graph_wavenet.py의 GraphWaveNet 클래스에는 get_hidden() 메서드가 존재하지 않는다. forward() 메서드는 최종 출력만 반환하며 중간 hidden state를 노출하지 않는다.

구현 필요사항: - forward()에서 마지막 ST Block 이후의 h를 별도로 반환하는 인터페이스 추가 - 또는 forward hook을 사용하여 중간 텐서를 캡처

이것은 GWN 모델 코드 자체를 수정해야 함을 의미하며, 구현 소요 "1.5~2일"은 이 작업을 포함한 것인지 불명확하다.

문제점 C-2: 의미 공간 불일치 (Semantic Gap) [MAJOR]¶

심각도: MAJOR

GWN의 hidden state h[:, i, :, -1]은 [B, hidden_dim=32 또는 64] 차원이다. DLinear의 last_features는 [B, D=1, P=24] → squeeze하면 [B, 24] 차원이다.

Projector nn.Linear(24, 32)로 차원을 맞추더라도: - GWN hidden state: 다변량 시공간 context가 인코딩된 표현 - DLinear last_features: 단변량 trend+seasonal 선형 조합의 결과

이 두 표현은 의미 공간이 근본적으로 다르다. FitNet이 성공한 사례(CNN Teacher → 얇은 CNN Student)는 동일한 아키텍처 계열 내에서의 정렬이었다. GWN(Graph+TCN) → DLinear(Linear Decomposition)는 아키텍처 갭이 매우 크다.

SDKD와 DistilTS가 이 문제를 다루긴 하지만, 두 논문 모두 Transformer 계열 내에서의 정렬을 다루며, Linear 모델에 대한 Feature-based KD 사례는 거의 없다.

문제점 C-3: Projector 설계의 민감도 미언급 [MINOR]¶

심각도: MINOR

Feature alignment에서 projector 구조(Linear vs MLP vs NonLinear)와 학습률이 결과에 매우 민감하다는 것은 FitNet 이후 다수 연구에서 확인된 사실이다. 단일 Linear projector만 제안하고 있으며, ablation 계획이 없다.

판정: CONDITIONAL GO¶

이론적 근거는 가장 탄탄하나, 의미 공간 불일치 위험이 크다. GWN 모델 수정이 선행되어야 하며, projector 설계에 대한 최소한의 ablation(Linear vs 2-layer MLP)이 필요하다.

4. 방법 D: Relational KD — 비판¶

문제점 D-1: 현재 파이프라인과의 구조적 충돌 [CRITICAL]¶

심각도: CRITICAL (구현 난이도 과소평가)

현재 파이프라인 구조: - ECPairTrainer: 1개 Student를 1개 가구에 대해 독립 학습 - ec_pair_train.py: --apt_name 인자로 단일 가구 지정 - ECPairDataset: 6-tuple (x_ind, y_ind, x_ec, y_ec, x_mark, y_mark) — 단일 가구용

방법 D는 5개 Student를 동시에 학습해야 한다. 이는: 1. 새로운 Trainer 클래스 필요 (RelationalKDTrainer — 5개 Student 관리, 관계 행렬 계산) 2. 새로운 Dataset 필요 (5가구의 개별 데이터를 동시에 batch로 제공) 3. 새로운 학습 스크립트 필요 4. 메모리: GWN forward ([B, 50, 96]) + 5x DLinear forward — RTX 5070 Ti 16GB에서 batch_size 제한 필요

"구현 소요 2~3일"은 테스트 및 디버깅 포함 시 현실적으로 3~5일에 가깝다.

문제점 D-2: Cosine Similarity 기반 관계 행렬의 노이즈 민감도 [MAJOR]¶

심각도: MAJOR

제안된 수식: $$R^T_{ij} = \frac{y^T_i \cdot y^T_j}{\|y^T_i\| \|y^T_j\|}$$

이 cosine similarity는 배치 내 예측값으로 계산된다. 문제: 1. 배치 크기가 작으면 (B=32) y^T_i = [3224 = 768] 차원 → cosine similarity가 불안정 2. GWN Teacher의 예측값이 부정확하면, R^T 자체가 노이즈 → Student에 잘못된 관계 구조를 강제 3. 가구 간 실제 관계와 예측값 간 유사도*는 다른 것 — A_adp를 직접 전달하는 것이 아님

이 방법은 사실 A_adp를 간접적으로만 전달한다. Teacher 출력에 반영된 관계 구조를 재현하는 것이지, A_adp 자체를 전달하는 것이 아니다. 문서 제목("Adjacency Matrix KD")과 실제 메커니즘 사이에 괴리가 있다.

문제점 D-3: Multi-Student 동시 학습의 수렴 안정성 미검증 [MAJOR]¶

심각도: MAJOR

5개 Student의 개별 task loss + 공동 relational loss를 동시 최적화할 때: - 한 Student의 학습이 빠르고 다른 Student가 느리면 관계 행렬이 왜곡 - Relational loss의 gradient가 모든 Student에 영향 → 개별 가구 성능 저하 가능 - Park et al. (2019)는 단일 Student에 대해 검증했으며, 다중 Student 동시 학습은 별도 연구가 필요

판정: CONDITIONAL GO (Phase 3에서만, C의 성공 이후)¶

논문 차별화 가치는 인정하나, 구현 복잡도와 수렴 위험이 높다. 방법 C가 유의미한 개선을 보인 이후에만 진행.

5. 방법 E: Adjacency-Guided Loss — 비판¶

문제점 E-1: Variant 2의 피크 평활화 위험 [MAJOR]¶

심각도: MAJOR

Variant 2의 수식: $$y^{soft}_{weighted} = \sum_{j=1}^{N} A_{adp}[i, j] \cdot y^T_j$$

이것은 N개 가구의 Teacher 예측을 가중 평균하는 것이다. 가중 평균은 필연적으로 평활화(smoothing) 효과를 일으킨다. Phase 3 결과에서 이미 "EC의 평활 패턴이 개별 가구의 급격한 피크를 smoothing"하는 것이 PAPE 악화의 원인으로 식별되었다 (Phase3_Report_ver3.md Section 4 교차 검증: 4/5 가구에서 KD 후 PAPE 악화).

즉, 이미 실패로 확인된 메커니즘(평활화)을 다른 가중치로 반복하는 것에 불과하다.

문제점 E-2: Variant 1의 자기 참조 가정이 검증 불가 [MINOR]¶

심각도: MINOR

Variant 1: $\lambda_i^{adapt} = \lambda_{base} \cdot (1 + \beta \cdot A_{adp}[i, i])$

"A_adp[i,i]가 높으면 Teacher 예측 신뢰도 높음"이라는 가정은 검증되지 않은 해석이다. Softmax(ReLU(E1@E2^T))의 대각 원소가 높다는 것은 단순히 E1[i]와 E2[i]의 내적이 크다는 것이지, Teacher 예측의 "신뢰도"와 직접적 관계가 있다는 이론적 근거가 없다.

문제점 E-3: "빠른 검증"의 함정 [MAJOR]¶

심각도: MAJOR

문서는 방법 E를 "A_adp 활용 효과의 상한선 측정"이라 설명하나, 이는 하한선에 가깝다. 방법 E는 A_adp의 가장 간접적/약한 활용 방식이므로, 효과가 없다고 해서 "A_adp 전달 자체가 무효"라는 결론을 내리면 안 된다. 반대로 효과가 있다면 C, D의 기대치를 높일 수 있다.

이 점을 명확히 해야 실험 해석 오류를 방지할 수 있다.

판정: CONDITIONAL GO (해석 범위를 명확히 한정할 것)¶

빠른 검증 용도로는 적합하나, Variant 2는 피크 평활화 위험으로 권장하지 않음. Variant 1만 진행하되, 결과 해석 시 "E의 실패 ≠ A_adp 전달 자체의 실패"임을 명시.

6. 추천 실행 순서에 대한 비판¶

원안: Phase 1 (E) → Phase 2 (C) → Phase 3 (D)¶

비판 및 수정 제안¶

동의하는 부분: - E를 먼저 하는 것은 합리적 (빠른 signal 확인) - D를 마지막에 하는 것은 합리적 (구현 비용 최대) - C가 핵심 실험인 것은 동의

수정이 필요한 부분:

Phase 0 (A_adp 품질 검증)가 빠져 있음: E를 실행하기 전에 A_adp 자체가 의미 있는지 확인해야 함. 1시간 이내 가능.
방법 A, B의 처리가 불명확: 원안에서 A, B는 실행 순서에서 제외되었으나, 명시적 NO-GO 선언이 없다. Ablation 대상에 포함시킬지 여부를 결정해야 한다.
C → D 사이의 Gate가 너무 느슨: "Phase 2 결과가 유의미할 경우에만 진행"이라 했으나, "유의미"의 정량 기준이 없다.

7. 수정된 실행 프로세스¶

Gate 0: GWN Teacher 성능 검증 (선결 조건)¶

마감: 0407_revised_GWN_KD_experiment.md Phase 1 완료 시점

기준: | 조건 | 기준값 | 근거 | |------|--------|------| | GWN Teacher 5가구 평균 MSE | < 0.5207 (M0) | Teacher가 최소한 Baseline 이상이어야 의미 | | GWN Teacher MSE 개선율 | > 5% (< 0.4947) | 노이즈가 아닌 실질적 개선 확인 | | 개선 가구 비율 | >= 3/5 | 일관성 확인 |

PASS → Gate 0-A로 진행
FAIL → Adjacency Matrix KD 전체 중단. Chronos Teacher + Response-based KD로 복귀.

Gate 0-A: A_adp 품질 검증 (0.5시간)¶

GWN Teacher 학습 완료 후 즉시 수행:

import torch, numpy as np, seaborn as sns, matplotlib.pyplot as plt
from scipy.stats import spearmanr

A = gwn_teacher.get_adaptive_adj().detach().cpu().numpy()  # [N, N]

# 검증 1: Entropy (uniform이 아닌지)
from scipy.stats import entropy
row_entropies = [entropy(A[i]) for i in range(len(A))]
mean_entropy = np.mean(row_entropies)
max_entropy = np.log(len(A))  # uniform distribution의 entropy
print(f"Mean row entropy: {mean_entropy:.3f} / Max possible: {max_entropy:.3f}")
# 기준: mean_entropy < 0.8 * max_entropy (최소 20% 이상 uniform에서 벗어남)

# 검증 2: 대각선 지배도
diag_ratio = np.mean(np.diag(A)) / np.mean(A)
print(f"Diagonal dominance ratio: {diag_ratio:.2f}")
# 기준: diag_ratio < 5.0

# 검증 3: 시각화 (정성적 확인)
sns.heatmap(A[:10, :10], annot=True, fmt=".2f")  # 상위 10가구 서브셋
plt.savefig("outputs/plots/A_adp_heatmap.png")

기준: - mean_entropy < 0.8 * max_entropy → PASS - 그렇지 않으면 A_adp가 trivial → 방법 E, C, D 모두 무의미

Phase 1: 방법 E — Variant 1만 실행 (0.5일)¶

실행 범위: Variant 1 (적응형 lambda)만 실행. Variant 2(이웃 가중 soft target)는 피크 평활화 위험으로 제외.

구현:

# lambda_i = lambda_base * (1 + beta * A_adp[i, i])
# beta를 {0.5, 1.0, 2.0}으로 탐색

성공 기준: | 메트릭 | 기준 | 근거 | |--------|------|------| | MSE 개선 | > 0.1% vs GWN Soft-DTW KD (Variant 1 없이) | 적응형 가중치의 marginal 효과 확인 | | PAPE | 악화하지 않을 것 | 피크 예측 보호 |

해석 가이드: - E가 효과 있음 → C, D에 대한 기대치 상향 가능 - E가 효과 없음 → A_adp 전달 방법 자체가 무효라는 결론은 금지. C, D는 본질적으로 다른 메커니즘이므로 독립적으로 평가.

Gate 1 → Phase 2 진행 조건: E의 결과와 무관하게 Phase 2 진행 (E는 signal 확인용일 뿐)

Phase 2: 방법 C — Hidden Representation Alignment (2일)¶

선행 작업 (engineer): 1. GraphWaveNet에 forward_with_hidden() 메서드 추가 — 마지막 ST Block 이후 hidden state 반환 2. GWNSoftDTWTrainer를 상속한 FeatureAlignedTrainer 클래스 작성 3. Projector 2종 구현: (a) Linear(pred_len, hidden_dim), (b) MLP(pred_len, 64, hidden_dim)

실험 설계: | ID | Projector | lambda_feat | Task+Response KD | 비고 | |----|-----------|-------------|-------------------|------| | C0 | — | 0 | O (기존 GWN Soft-DTW) | Baseline (Phase 1 최적) | | C1 | Linear | 0.1 | O | Feature KD 추가 | | C2 | Linear | 0.3 | O | lambda_feat 탐색 | | C3 | MLP | 0.1 | O | Projector ablation | | C4 | MLP | 0.3 | O | Projector ablation | | C5 | Linear | 0.1 | X (Feature KD만) | Feature KD 독립 효과 |

5가구 x 6 설정 = 30 runs (~1.5시간)

성공 기준: | 메트릭 | 기준 | 근거 | |--------|------|------| | MSE 개선 | > 1% vs C0 (Response-only) | Feature KD의 marginal 효과가 통계적으로 의미 있어야 | | 개선 가구 | >= 3/5 | 일관성 | | PAPE | 악화 < 0.5%p | 피크 예측 보호 | | Multi-seed 검증 | seed={42, 123, 456} 3회 반복 | 안정성 확인 |

Gate 2 → Phase 3 진행 조건: - C의 최적 설정이 C0 대비 MSE 1% 이상 개선 AND 3/5 가구 이상 일관 → GO - 그렇지 않으면 → 방법 D 진행하지 않음. 현재까지의 최적 결과로 보고.

Phase 3: 방법 D — Relational KD (3~5일, 조건부)¶

Gate 2 통과 후에만 진행.

선행 작업 (engineer, 2일 이상): 1. MultiStudentRelationalTrainer 클래스 신규 작성 2. 5가구 동시 데이터 로딩 파이프라인 구축 3. 관계 행렬 계산 및 loss 통합 4. 메모리 프로파일링 (RTX 5070 Ti 16GB VRAM 내 가능한 batch_size 확인)

위험 완화: - Student 수를 5에서 3으로 줄여 먼저 검증 (수렴 안정성 확인) - Relational loss weight를 매우 작게 시작 (0.01) 후 점진적 증가 - 개별 가구 task loss가 baseline 대비 악화하면 즉시 중단

성공 기준: | 메트릭 | 기준 | |--------|------| | MSE 개선 | > C의 최적 대비 추가 개선 | | 개별 가구 성능 | 5가구 중 4가구 이상에서 단독 학습 대비 비악화 | | 논문 기여 | 에너지 도메인 Relational KD 최초 적용 (관련 연구 조사 확인) |

8. 방법 A, B에 대한 최종 결정¶

방법	판정	사유
A: Graph Embedding Injection	NO-GO (단독 실험 불가)	시간 불변 상수 bias는 DLinear의 학습으로 이미 흡수됨. 방법 C 내에서 부가 실험으로만 고려 가능.
B: Adj Row Feature	NO-GO	DLinear의 단변량 아키텍처와 근본적으로 비호환. channels 확장 시 경량성 목적 위반. Student 교체 없이는 불가.

9. 인정되는 강점¶

KD 분류 체계의 체계적 정리: Response/Feature/Relation-based KD로의 분류가 명확하고, 현재 구현의 위치를 정확히 진단하고 있다.
관련 논문 조사의 깊이: FitNet, SDKD, DistilTS, Park et al. 등 핵심 참고 문헌이 적절하게 선정되었다.
전제 조건의 인식: Section 6에서 "GWN Teacher 재학습 필수"를 명시한 것은 올바른 판단이다.
점진적 실행 순서: 쉬운 것(E) → 핵심(C) → 확장(D)의 순서는 합리적이다.
코드 예시의 구체성: 각 방법론에 대한 구현 스케치가 구체적이어서 engineer 전달이 용이하다.

10. 전체 타임라인¶

단계	작업	소요	선행 조건
Gate 0	GWN Teacher N=50 재학습	2일	`0407_revised_GWN_KD_experiment.md` Phase 1
Gate 0-A	A_adp 품질 검증	0.5시간	Gate 0 PASS
Phase 1	방법 E (Variant 1)	0.5일	Gate 0-A PASS
Phase 2 사전작업	GWN get_hidden(), FeatureAlignedTrainer	1일	Gate 0 PASS
Phase 2	방법 C 실험	1.5일	Phase 2 사전작업 완료
Gate 2	C 결과 검증	0.5일	Phase 2 완료
Phase 3 사전작업	MultiStudentRelationalTrainer	2일	Gate 2 PASS
Phase 3	방법 D 실험	1.5일	Phase 3 사전작업 완료

최소 경로 (E+C만): 약 5일 최대 경로 (E+C+D): 약 9일

11. experiment-expert 전달 사항¶

필수 수정 작업 (2026-04-09 기준 현황)¶

Gate 0: GWN Teacher N=50 재학습 완료 및 MSE < 0.5207 확인 — MSE=0.5049 (PASS)
Gate 0-A: A_adp 품질 검증 (entropy, 대각선 지배도, 시각화) 수행 및 결과 기록 — CONDITIONAL PASS
방법 A, B를 실행 대상에서 명시적으로 제외 — 7-Way Ablation 설계에서 제외됨
방법 E Variant 2(이웃 가중 soft target) 제외, Variant 1만 실행 — A4로 대체 설계 중

engineer 의뢰 사항 (현황)¶

GraphWaveNet.forward_with_hidden() 메서드 추가 — exp-critic 2차 리뷰 통과 후 진행
FeatureAlignedTrainer 클래스 구현 — exp-critic 2차 리뷰 통과 후 진행
방법 E Variant 1 구현 (적응형 lambda) — A4로 대체됨, 추후 결정
(Gate 2 통과 시) MultiStudentRelationalTrainer 구현 — Phase 3 이후

재실험 권고 체크리스트 (현황)¶

GWN Teacher MSE < 0.4947 (M0 - 5%) 확인 — 현재 0.5049, 미달 (단 A6가 -2.5% 개선으로 Gate 의의 희석)
A_adp entropy < 0.8 * max_entropy 확인 — ratio 0.579 (PASS)
방법 E 결과 해석 시 "E 실패 ≠ A_adp 전달 무효" 원칙 준수 — 진행 예정
방법 C에서 최소 2종 projector (Linear, MLP) ablation 수행 — 진행 예정
방법 C 최적 설정에 대해 3-seed 검증 수행 — 진행 예정
각 Phase 결과를 MLflow에 완전히 기록 — MLflow Experiment ID: 112410267921541401

2026-04-09 최종 결과¶

완료된 작업¶

P0 버그 5건 수정 완료 (DataLoader 정렬, PAPE 통일, DLinear skip, 가구 정합성, MAPE 제거)
SC-DLinear 구현 및 테스트 완료 (11/11 + 218/218 통과)
Gate 0-A A_adp 품질 검증 완료 (CONDITIONAL PASS — 대각선 지배도 23.84로 기준 5.0 초과)
A1 Baseline (5가구): Mean MSE=0.5223, Mean PAPE=42.55%
A2 (DLinear + GWN MSE KD) 재실험: Mean MSE=0.5186
A6 (SC-DLinear + GWN MSE KD + A_adp) 재실험: Mean MSE=0.5091, -2.5% vs A1
A7 (SC-DLinear + No-KD, A_adp only): 2×2 Factorial에서 추가
AN (Null test — random matrix): 2×2 Factorial에서 추가

Gate 결과 최종 판정¶

Gate	조건	결과	판정
Gate 0	GWN MSE < DLinear baseline (0.5207)	0.5049	PASS
Gate 0-A	대각선 지배도 < 5.0	23.84	FAIL (CONDITIONAL PASS 처리됨)
Phase 2 결론	A_adp 단독 효과 유의성 (p < 0.05)	p=0.3339	FAIL
Null test	A_adp vs Random 차이 유의성 (p < 0.05)	p=0.3711	FAIL

최종 판정: A_adp 기반 KD 실험 라인 종료¶

A_adp 단독 효과가 통계적으로 비유의하며 random matrix와 구별되지 않음.

Phase 2 설계상 방법 C(Hidden Representation Alignment), D(Relational KD)는 A_adp 품질에 직접 의존하므로, Gate 0-A FAIL 상태에서의 진행은 의미 없음.

다음 단계: docs/reference/chronos_hidden_kd_design.md로 전환 (Chronos Hidden State KD — A_adp와 무관한 별도 접근)

관련 보고서: experiments/report/0409_Phase2_Factorial_NullTest.md