콘텐츠로 이동

ADR-004: v4 → v5 전환 (Federated Learning 탐색)

상태: 완료 - v6로 개선 예정 (2026-04-13)

맥락

v4에서 GWN Teacher + A_adp conditioning KD가 통계적으로 비유의(ADR-003 참조). A_adp 대각선 지배도 23.84, 2×2 Factorial 전 효과 비유의(KD p=0.24, A_adp p=0.33). 개별 가구 KD의 한계가 드러난 시점에서, 다수 가구 데이터를 프라이버시 보존하며 활용하는 Federated Learning 방향을 탐색.

결정

DLinear Student를 FedAvg/FedProx/FedDF로 연합학습. Cold-start 시나리오까지 평가.

근거

  • KD 경로(v3 Chronos, v4 GWN)에서 유의미한 성능 향상 실패
  • FL은 가구 간 지식 공유를 모델 파라미터 수준에서 수행 → KD와 직교하는 접근
  • Cold-start(신규 가구 즉시 배포)는 실용적 ESS 운영에서 핵심 시나리오

실험 구성

  • Phase 2: Local-Only vs FedAvg vs FedAvg+FT vs FedProx vs FedDF (24가구, 5가구 평가)
  • Phase 3: Cold-Start (45가구 학습 → 5가구 hold-out, few-shot frac={0.1,0.3,0.5,1.0})
  • 스크립트: experiments/federated/v5_0413_fed_train.py, v5_0413_fed_cold_start.py

결과

주의: PAPE는 에러 메트릭(낮을수록 좋음). 평가 가구 5개 평균이며 통계적 유의성 검증(신뢰구간, paired test)은 미수행.

Phase 2 — Local vs Federated

Method Avg MSE ↓ Avg PAPE (%) ↓
Local-Only 0.5154 42.51
FedProx (최선 MSE) 0.4981 43.24
FedAvg+FT (최선 PAPE) 0.5118 42.02
  • MSE 개선 3.4%로 소폭. FL 알고리즘 간 차이 무시 수준 (< 0.002), 통계적 유의성 미확인
  • MSE↔PAPE 트레이드오프 발견: MSE 최선(FedProx)은 PAPE 악화, PAPE 최선(FedAvg+FT)은 MSE 열위

Phase 3 — Cold-Start

Condition frac=0.1 MSE ↓ frac=0.1 PAPE (%) ↓
Scratch 0.5732 35.46
Fed-Direct (zero-shot) 0.4993 43.55 (PAPE 최악)
Fed-FT-50 0.6170 31.17 (PAPE 최선)
  • Fed-Direct: MSE 12.9% 개선 — Cold-start에서 FL 가치 명확 (단, PAPE는 최악)
  • Fed-FT-50: PAPE 최선이나 MSE 최악 → MSE↔PAPE 트레이드오프 Cold-Start에서도 재현
  • ⚠️ Cold-start fine-tuning에 early stopping 미적용 — FT-50 과적합이 과장되었을 가능성 있음 (재실험 필요)

계승 사항

  • MSE↔PAPE 트레이드오프는 후속 실험에서도 핵심 관찰 변수 (두 메트릭 동시 보고 필수)
  • Cold-start 시나리오의 FL 유효성(MSE 기준)은 논문 기여점으로 활용 가능
  • FedAvg가 충분 — 복잡한 FL 알고리즘의 추가 이점 없음

미결 사항 (exp-critic 리뷰, 2026-04-13)

  • Cold-start FT에 early stopping 추가 후 재실험 필요 — FT 과적합 결론의 신뢰성 미확보
  • 통계적 유의성 검증 미수행 (5가구 평균만, seed=42 단일)
  • FedDF distillation loader가 단일 가구에 편향 (minor)

폐기 사항

  • FL 단독으로 기존 가구의 피크 예측(PAPE) 개선은 기대 어려움
  • FedDF, FedProx의 복잡성 대비 이점 없으므로 후속 실험에서 제외