Source:
report/version6/lab-leader/v6_0415_exp6_final_report.md
Exp6 FeDPM Codebook MVP — 종합 결과 보고서¶
- 작성자: lab-leader
- 날짜: 2026-04-15
- 실험 설계서:
report/version6/lab-leader/v6_0415_exp6_design.md - 관련 보고서:
report/exp-expert/v6_0415_exp6_*.md,report/exp-critic/v6_0415_exp6_*.md
1. 실험 목적¶
FeDPM(Federated Dynamic Prototype Memory)의 VQ codebook 교환 방식이 동일 도메인(EC50 에너지 가구) 연합학습에서 유효한지 검증하고, Peak-Weighted Loss 및 로컬 개인화 경로의 효과를 확인한다.
2. 가설 및 판정 요약¶
| 가설 | 내용 | 판정 | 근거 |
|---|---|---|---|
| H6-1 | V1 MSE ≤ B1 MSE (codebook 교환 유효성) | FAIL | 0.579 > 0.505 |
| H6-2 | P1 PAPE < V1 PAPE (Peak Loss 효과) | PASS | 42.67% < 49.77% (-7.1%p) |
| H6-3a | R1 PAPE < P1 PAPE (MLP Residual 효과) | FAIL | 45.70% > 42.67% (+3.0%p) |
| H6-3b | R1b PAPE < P1 PAPE (DLinear Residual 효과) | PASS | 38.40% < 42.67% (-4.3%p) |
3. 전체 모델 성능 비교¶
3.1 FeDPM 계열¶
| 설정 | MSE | PAPE (%) | HR (%) | CB Util (%) |
|---|---|---|---|---|
| V1 (Vanilla FeDPM) | 0.579 | 49.77 | 24.2 | 3.9 |
| P1 (alpha=2, beta=2) | 0.543 | 42.67 | 27.8 | 3.8 |
| P1 (alpha=3, beta=2) | 0.533 | 43.08 | 29.5 | 3.2 |
| P1 (3-seed 평균) | 0.543±0.003 | 43.43±0.67 | 27.4±0.3 | — |
| MSE 등가 (beta=100) | 0.560 | 46.24 | 23.4 | 15.5 |
| R1 (MLP Residual) | 0.539 | 45.70 | 28.5 | 4.1 |
| R1b (DLinear Residual) | 0.625 | 38.40 | 22.4 | 4.1 |
3.2 Beta/Alpha Sweep¶
| alpha | beta | MSE | PAPE (%) |
|---|---|---|---|
| 2.0 | 0.1 | 0.579 | 52.83 |
| 2.0 | 0.5 | 0.562 | 46.68 |
| 2.0 | 1.0 | 0.543 | 45.48 |
| 2.0 | 2.0 | 0.543 | 42.67 |
| 2.0 | 3.0 | 0.542 | 45.31 |
| 2.0 | 4.0 | 0.540 | 43.34 |
| 3.0 | 2.0 | 0.533 | 43.08 |
| 5.0 | 2.0 | 0.553 | 48.60 |
→ beta=2.0이 sweet spot, alpha=5.0은 과도, alpha=3.0은 MSE 최선
3.3 Baseline 모델 비교¶
| 모델 | 유형 | MSE | PAPE (%) | HR (%) |
|---|---|---|---|---|
| B0 (DLinear, 4.6K) | Local 학습 | 0.522 | 42.55 | — |
| B1 (FedAvg+DLinear) | FL | 0.505 | 43.55 | — |
| NHITS | NF 학습 | 0.639 | 39.73 | 22.6 |
| PatchTST | NF 학습 | 0.572 | 48.41 | 21.1 |
| TimesNet | NF 학습 | 0.585 | 47.52 | 29.4 |
| iTransformer | NF 학습 | 0.584 | 51.17 | 23.4 |
| TFT | NF 학습 | 0.719 | 50.58 | 15.1 |
| TimeMoE-50M | FM zero-shot | 0.549 | 43.38 | 32.9 |
| Chronos-Bolt | FM zero-shot | 0.555 | 44.98 | 37.7 |
| Moirai-Small | FM zero-shot | 0.641 | 46.61 | 17.7 |
3.4 PAPE 순위 (전체)¶
| 순위 | 모델 | PAPE (%) | MSE | 비고 |
|---|---|---|---|---|
| 1 | FeDPM+DLinear (R1b) | 38.40 | 0.625 | FL, MSE 트레이드오프 |
| 2 | NHITS | 39.73 | 0.639 | Local 학습 |
| 3 | B0 (DLinear) | 42.55 | 0.522 | 가장 단순 |
| 4 | FeDPM P1 (a2,b2) | 42.67 | 0.543 | FL |
| 5 | FeDPM P1 (a3,b2) | 43.08 | 0.533 | FL, MSE 최선 |
| 6 | TimeMoE-50M | 43.38 | 0.549 | FM zero-shot |
| 7 | B1 (FedAvg) | 43.55 | 0.505 | FL, MSE 최선 전체 |
4. 핵심 발견¶
4.1 FeDPM 관련¶
- Vanilla FeDPM은 동일 도메인에서 부적합 — codebook util 3~6%, B1 미달
- Peak-Weighted Loss가 핵심 기여 — PAPE 7.1%p 개선, MSE 등가 검증으로 고유 효과 입증
- DLinear Residual이 가장 효과적인 개인화 경로 — MLP는 RevIN 후 피크 정보 소실로 실패
- beta=2.0이 최적 — L2 영역 확장으로 Peak Weight와 시너지
4.2 Baseline 관련¶
- NHITS가 학습 모델 중 PAPE 최선 (39.73%) — 다만 MSE 0.639로 B0보다 나쁨
- Foundation Model은 zero-shot으로 B0 미달 — 47.7M params도 4.6K DLinear를 못 넘음
- MSE vs PAPE 트레이드오프가 보편적 — 피크에 집중하면 전체 정확도가 희생됨
4.3 구조적 발견¶
- 피크 예측에서 모델 크기보다 loss 설계와 개인화가 중요 — DLinear(4.6K) + Peak Loss > TimeMoE(50M)
- VQ codebook의 역할은 "패턴 사전"보다 "FL 통신 효율" — 실제 사용 코드가 8~16개로 패턴 구분력은 제한적
5. 50 Clients 실험 결과¶
| 설정 | MSE | PAPE (%) | HR (%) | CB Util (%) |
|---|---|---|---|---|
| 5 clients (seed=42) | 0.543 | 42.67 | 27.8 | 3.8 |
| 50 clients (EVAL 5가구) | 0.541 | 47.22 | 25.2 | 3.1 |
| 50 clients (전체 50가구 평균) | 0.575 | 47.78 | 23.2 | 3.6 |
결론: 스케일 효과 없음. 클라이언트를 10배 늘려도 codebook util(3~4%)과 PAPE 모두 개선되지 않았다. 오히려 EVAL 5가구 PAPE가 42.67% → 47.22%로 악화. 이는 동일 도메인에서 VQ codebook의 한계가 클라이언트 수와 무관하게 구조적이라는 것을 실증한다. Memory Alignment 시 50가구의 유사한 codebook이 평균화되면서 개인화 정보가 희석된 것으로 판단된다.
6. 다음 방향성 제안¶
방향 A: FeDPM+DLinear 구조 심화 (PAPE 최적화)¶
- R1b(38.40%)의 MSE 악화(0.625) 문제 해결
- DLinear lr 추가 튜닝 (현재 1e-6, 범위: 5e-7 ~ 5e-6)
- alpha/beta를 R1b 위에서 재탐색
- 3-seed 반복으로 R1b 안정성 검증
- 목표: PAPE < 38% AND MSE < 0.56
방향 B: NHITS + FL 결합 (새 패러다임)¶
- NHITS가 단독 학습으로 PAPE 39.73% → FL로 개인화하면 더 개선 가능?
- FedAvg+NHITS 또는 FeDPM encoder를 NHITS로 교체
- 목표: NHITS의 PAPE 강점 + FL의 데이터 효율
방향 C: 논문 작성 단계 진입¶
- 현재 결과로 충분한 contribution 확보:
- FeDPM 동일 도메인 적용 최초 시도 + 한계 분석
- Peak-Weighted Loss의 효과 입증 (MSE 등가 검증 포함)
- VQ+DLinear 이중 경로의 PAPE 최선 성능
- 13개 모델 비교 (Local/NF/FM/FL)
- 50 clients 결과 확보 후 reporter → thesis-writer 파이프라인 가동
추천: 방향 A + C 병행¶
근거: R1b가 PAPE 38.40%로 전체 최선이지만 MSE 0.625는 B0(0.522) 대비 20% 악화. 이 트레이드오프를 줄이면 논문의 실용적 기여가 강화된다. 동시에 현재 데이터만으로도 Introduction~Methodology~Experiments의 골격은 작성 가능하므로, 추가 실험과 논문 작성을 병행하는 것이 시간 효율적이다.
구체 실행 계획:
| 일자 | 작업 | 담당 |
|---|---|---|
| D+1 AM | R1b DLinear lr sweep (5e-7, 2e-6, 5e-6) | exp-expert |
| D+1 AM | R1b alpha/beta 재탐색 (alpha=3, beta=2 위에서) | exp-expert |
| D+1 PM | R1b 3-seed 반복 (최적 설정 확정 후) | exp-expert |
| D+1 PM | 논문 초안: Abstract, Introduction, Related Work | thesis-writer |
| D+2 AM | 50 clients 결과 반영 + exp-critic 최종 리뷰 | exp-critic |
| D+2 PM | Methodology, Experiments 섹션 작성 | thesis-writer |
| D+3 | 최종 보고서 + 논문 초안 완성 | reporter + thesis-writer |
7. Phase 종료 판정¶
Exp6 FeDPM Codebook MVP: CONDITIONAL PASS
- FeDPM의 Vanilla 적용은 실패했으나, Peak-Weighted Loss + DLinear Residual 조합으로 전체 실험 PAPE 최선(38.40%) 달성
- 논문 contribution으로 충분한 발견 확보
- MSE 트레이드오프 해결이 다음 과제
논문 기여 (Contribution) 정리¶
- FeDPM의 동일 도메인 적용 최초 시도 및 한계 분석 — 원본 FeDPM은 이종 도메인(전기/날씨/환율)에서 검증. 동일 도메인(에너지 가구)에서는 codebook collapse(util 3~6%)가 발생하며 FedAvg 미달.
- Peak-Weighted SmoothL1 Loss 설계 및 효과 입증 — beta=2.0과 alpha=2.0 조합으로 PAPE 7.1%p 개선. MSE 등가 검증(beta=100)으로 고유 효과 분리.
- VQ+DLinear 이중 경로 아키텍처 — FL 공유(VQ codebook) + 로컬 개인화(DLinear) 역할 분담으로 PAPE 38.40% 달성. 13개 모델 중 최선.
- 13개 모델 포괄적 비교 — Local(DLinear), NF 학습(NHITS, PatchTST, TimesNet, iTransformer, TFT), FM zero-shot(Chronos, TimeMoE, Moirai), FL(FedAvg, FeDPM 변형) 비교. "피크 예측에서 모델 크기보다 loss 설계와 개인화가 중요"하다는 실증적 발견.