ADR-004: v4 → v5 전환 (Federated Learning 탐색)¶

상태: 완료 - v6로 개선 예정 (2026-04-13)¶

맥락¶

v4에서 GWN Teacher + A_adp conditioning KD가 통계적으로 비유의(ADR-003 참조). A_adp 대각선 지배도 23.84, 2×2 Factorial 전 효과 비유의(KD p=0.24, A_adp p=0.33). 개별 가구 KD의 한계가 드러난 시점에서, 다수 가구 데이터를 프라이버시 보존하며 활용하는 Federated Learning 방향을 탐색.

결정¶

DLinear Student를 FedAvg/FedProx/FedDF로 연합학습. Cold-start 시나리오까지 평가.

근거¶

KD 경로(v3 Chronos, v4 GWN)에서 유의미한 성능 향상 실패
FL은 가구 간 지식 공유를 모델 파라미터 수준에서 수행 → KD와 직교하는 접근
Cold-start(신규 가구 즉시 배포)는 실용적 ESS 운영에서 핵심 시나리오

실험 구성¶

Phase 2: Local-Only vs FedAvg vs FedAvg+FT vs FedProx vs FedDF (24가구, 5가구 평가)
Phase 3: Cold-Start (45가구 학습 → 5가구 hold-out, few-shot frac={0.1,0.3,0.5,1.0})
스크립트: experiments/federated/v5_0413_fed_train.py, v5_0413_fed_cold_start.py

결과¶

주의: PAPE는 에러 메트릭(낮을수록 좋음). 평가 가구 5개 평균이며 통계적 유의성 검증(신뢰구간, paired test)은 미수행.

Phase 2 — Local vs Federated¶

Method	Avg MSE ↓	Avg PAPE (%) ↓
Local-Only	0.5154	42.51
FedProx (최선 MSE)	0.4981	43.24
FedAvg+FT (최선 PAPE)	0.5118	42.02

MSE 개선 3.4%로 소폭. FL 알고리즘 간 차이 무시 수준 (< 0.002), 통계적 유의성 미확인
MSE↔PAPE 트레이드오프 발견: MSE 최선(FedProx)은 PAPE 악화, PAPE 최선(FedAvg+FT)은 MSE 열위

Phase 3 — Cold-Start¶

Condition	frac=0.1 MSE ↓	frac=0.1 PAPE (%) ↓
Scratch	0.5732	35.46
Fed-Direct (zero-shot)	0.4993	43.55 (PAPE 최악)
Fed-FT-50	0.6170	31.17 (PAPE 최선)

Fed-Direct: MSE 12.9% 개선 — Cold-start에서 FL 가치 명확 (단, PAPE는 최악)
Fed-FT-50: PAPE 최선이나 MSE 최악 → MSE↔PAPE 트레이드오프 Cold-Start에서도 재현
⚠️ Cold-start fine-tuning에 early stopping 미적용 — FT-50 과적합이 과장되었을 가능성 있음 (재실험 필요)

계승 사항¶

MSE↔PAPE 트레이드오프는 후속 실험에서도 핵심 관찰 변수 (두 메트릭 동시 보고 필수)
Cold-start 시나리오의 FL 유효성(MSE 기준)은 논문 기여점으로 활용 가능
FedAvg가 충분 — 복잡한 FL 알고리즘의 추가 이점 없음

미결 사항 (exp-critic 리뷰, 2026-04-13)¶

Cold-start FT에 early stopping 추가 후 재실험 필요 — FT 과적합 결론의 신뢰성 미확보
통계적 유의성 검증 미수행 (5가구 평균만, seed=42 단일)
FedDF distillation loader가 단일 가구에 편향 (minor)

폐기 사항¶

FL 단독으로 기존 가구의 피크 예측(PAPE) 개선은 기대 어려움
FedDF, FedProx의 복잡성 대비 이점 없으므로 후속 실험에서 제외