ADR-004: v4 → v5 전환 (Federated Learning 탐색)¶
상태: 완료 - v6로 개선 예정 (2026-04-13)¶
맥락¶
v4에서 GWN Teacher + A_adp conditioning KD가 통계적으로 비유의(ADR-003 참조). A_adp 대각선 지배도 23.84, 2×2 Factorial 전 효과 비유의(KD p=0.24, A_adp p=0.33). 개별 가구 KD의 한계가 드러난 시점에서, 다수 가구 데이터를 프라이버시 보존하며 활용하는 Federated Learning 방향을 탐색.
결정¶
DLinear Student를 FedAvg/FedProx/FedDF로 연합학습. Cold-start 시나리오까지 평가.
근거¶
- KD 경로(v3 Chronos, v4 GWN)에서 유의미한 성능 향상 실패
- FL은 가구 간 지식 공유를 모델 파라미터 수준에서 수행 → KD와 직교하는 접근
- Cold-start(신규 가구 즉시 배포)는 실용적 ESS 운영에서 핵심 시나리오
실험 구성¶
- Phase 2: Local-Only vs FedAvg vs FedAvg+FT vs FedProx vs FedDF (24가구, 5가구 평가)
- Phase 3: Cold-Start (45가구 학습 → 5가구 hold-out, few-shot frac={0.1,0.3,0.5,1.0})
- 스크립트:
experiments/federated/v5_0413_fed_train.py,v5_0413_fed_cold_start.py
결과¶
주의: PAPE는 에러 메트릭(낮을수록 좋음). 평가 가구 5개 평균이며 통계적 유의성 검증(신뢰구간, paired test)은 미수행.
Phase 2 — Local vs Federated¶
| Method | Avg MSE ↓ | Avg PAPE (%) ↓ |
|---|---|---|
| Local-Only | 0.5154 | 42.51 |
| FedProx (최선 MSE) | 0.4981 | 43.24 |
| FedAvg+FT (최선 PAPE) | 0.5118 | 42.02 |
- MSE 개선 3.4%로 소폭. FL 알고리즘 간 차이 무시 수준 (< 0.002), 통계적 유의성 미확인
- MSE↔PAPE 트레이드오프 발견: MSE 최선(FedProx)은 PAPE 악화, PAPE 최선(FedAvg+FT)은 MSE 열위
Phase 3 — Cold-Start¶
| Condition | frac=0.1 MSE ↓ | frac=0.1 PAPE (%) ↓ |
|---|---|---|
| Scratch | 0.5732 | 35.46 |
| Fed-Direct (zero-shot) | 0.4993 | 43.55 (PAPE 최악) |
| Fed-FT-50 | 0.6170 | 31.17 (PAPE 최선) |
- Fed-Direct: MSE 12.9% 개선 — Cold-start에서 FL 가치 명확 (단, PAPE는 최악)
- Fed-FT-50: PAPE 최선이나 MSE 최악 → MSE↔PAPE 트레이드오프 Cold-Start에서도 재현
- ⚠️ Cold-start fine-tuning에 early stopping 미적용 — FT-50 과적합이 과장되었을 가능성 있음 (재실험 필요)
계승 사항¶
- MSE↔PAPE 트레이드오프는 후속 실험에서도 핵심 관찰 변수 (두 메트릭 동시 보고 필수)
- Cold-start 시나리오의 FL 유효성(MSE 기준)은 논문 기여점으로 활용 가능
- FedAvg가 충분 — 복잡한 FL 알고리즘의 추가 이점 없음
미결 사항 (exp-critic 리뷰, 2026-04-13)¶
- Cold-start FT에 early stopping 추가 후 재실험 필요 — FT 과적합 결론의 신뢰성 미확보
- 통계적 유의성 검증 미수행 (5가구 평균만, seed=42 단일)
- FedDF distillation loader가 단일 가구에 편향 (minor)
폐기 사항¶
- FL 단독으로 기존 가구의 피크 예측(PAPE) 개선은 기대 어려움
- FedDF, FedProx의 복잡성 대비 이점 없으므로 후속 실험에서 제외