Source:
report/version5/exp-critic/v5_0413_FL_critic_review.md
FL 실험 Exp-Critic 리뷰¶
날짜: 2026-04-13 대상: Phase 2 (Local vs Federated Baseline) + Phase 3 (Cold-Start Evaluation) 리뷰어: exp-critic
1. PAPE 해석 방향 오류 (Critical)¶
문제¶
compute_pape() (src/peak_analysis/metrics.py:213-248) 정의:
PAPE는 에러 메트릭으로, 낮을수록 좋다.
exp-expert는 "Fed-Direct PAPE 43.55%가 최고"라고 해석했으나, 이는 반대이다.
수정된 해석¶
| Condition | Frac | PAPE (%) | 해석 |
|---|---|---|---|
| CS_Fed-FT-50 | 0.1 | 31.17 | PAPE 기준 최선 |
| CS0_Scratch | 0.1 | 35.46 | |
| CS_Fed-FT-10 | 0.3 | 37.83 | |
| CS_Fed-Direct | all | 43.55 | PAPE 기준 최악 |
Phase 2도 재해석 필요:
| Method | Avg PAPE (%) | 순위 (낮을수록 좋음) |
|---|---|---|
| F3: FedAvg+FT | 42.02 | 1위 (최선) |
| L1: Local | 42.51 | 2위 |
| F4: FedProx | 43.24 | 3위 |
| F5: FedDF | 43.57 | 4위 |
| F1: FedAvg | 43.60 | 5위 (최악) |
영향¶
- Phase 2: FedAvg+FT가 PAPE 기준 최선이라는 결론은 유지됨 (42.02%가 가장 낮으므로)
- Phase 3: "Fed-Direct가 PAPE 최고"라는 결론이 완전히 뒤집힘. 실제로는 Fed-Direct(43.55%)가 PAPE 최악이고, Fed-FT-50 frac=0.1(31.17%)이 PAPE 최선
- MSE/MAE와 PAPE가 상충하는 trade-off 관계가 명확해짐: Fed-Direct는 MSE/MAE 최선이나 PAPE 최악
2. 통계적 유의성 검증 부재 (Major)¶
문제¶
- 평가 가구 5개의 평균만으로 방법론 간 비교
- 분산, 표준편차, 신뢰구간 없음
- Phase 2에서 FL 방법 간 평균 MSE 차이가 0.4% 이내 — 통계적으로 유의미한지 판단 불가
권장¶
- 최소한 가구별 결과의 표준편차 보고
- Paired t-test 또는 Wilcoxon signed-rank test로 방법론 간 비교
- 또는 seed를 여러 개 사용한 반복 실험 (현재 seed=42 단일)
3. Cold-Start Fine-tuning에 Early Stopping 미적용 (Major)¶
문제¶
trainer.py:cold_start_evaluate() (lines 332-344):
Phase 2의 train_local_only()와 train_scratch()에는 patience=10 early stopping이 있지만, cold-start fine-tuning에는 없다.
영향¶
- FT-50의 과적합이 과장되었을 가능성 (early stopping이 있었다면 더 일찍 멈춰서 성능 개선)
- "Fine-tuning은 해롭다"는 결론이 약화될 수 있음
- FT-10 vs FT-50 비교의 공정성 훼손
권장¶
cold_start_evaluate()에 validation-based early stopping 추가 후 재실험- 또는 FT epoch를 {5, 10, 20, 30, 50}으로 세분화하여 최적 FT epoch 탐색
4. FedDF Distillation Loader 대표성 문제 (Minor)¶
문제¶
trainer.py:204:
FedDF의 distillation에 첫 번째 가구의 train_loader만 사용. 이는 해당 가구의 데이터 분포에 편향된 distillation을 수행.
영향¶
- FedDF가 FedAvg와 거의 동일한 성능을 보이는 원인 중 하나일 수 있음
- 다가구 데이터를 혼합한 distillation loader를 사용하면 FedDF 성능이 달라질 수 있음
권장¶
- 전체 가구의 train data를 셔플 혼합한 distillation loader 사용
- 또는 각 가구의 subset을 균등 sampling한 balanced loader 구성
5. Phase 2-3 간 실험 설계 비대칭 (Minor)¶
문제¶
- Phase 2: 24가구 (20 random + 5 eval), eval 가구가 학습에도 참여
- Phase 3: 45가구 (hold-out 제외), eval 가구는 학습 미참여
federation 크기(24 vs 45)와 eval 가구 참여 여부가 다르므로, Phase 2와 3의 결과를 직접 비교하기 어렵다.
권장¶
- Phase 2 결과와 Phase 3 결과의 직접 비교 시 이 차이를 명시적으로 서술
- 가능하다면 Phase 2도 45가구로 재실험하여 동일 조건 비교
6. 누락된 실험 조건¶
N-ablation (Phase 2)¶
fed_train.py docstring에 "Experiment B: N-ablation" (--num_households 5)이 명시되어 있으나 실행되지 않음. Federation 크기가 성능에 미치는 영향 분석이 누락.
FedProx Cold-Start¶
Phase 3에서 FedAvg만 사용. FedProx가 Phase 2에서 MSE 기준 최선이었으므로, FedProx 기반 cold-start도 비교 대상에 포함해야 한다.
Learning Rate Sensitivity¶
모든 실험이 LR=1e-3 고정. FT 성능이 LR에 민감할 수 있으므로, FT용 LR 탐색 필요.
7. 종합 판정¶
| 항목 | 판정 |
|---|---|
| PAPE 해석 | 재해석 필요 (Critical) |
| 통계적 유의성 | 보완 필요 (Major) |
| Early Stopping | 코드 수정 + 재실험 권장 (Major) |
| FedDF Loader | 향후 개선 사항 (Minor) |
| Phase 2-3 비대칭 | 보고서 서술 보완 (Minor) |
| N-ablation 누락 | 추가 실험 권장 |
재실험 우선순위¶
- cold_start_evaluate()에 early stopping 추가 후 Phase 3 재실험 — FT-50 과적합 결론의 신뢰성 확보
- 보고서의 PAPE 해석 수정 — MSE/MAE↔PAPE trade-off로 재프레이밍
- N-ablation 실험 추가 (Phase 2 보완)
결론으로 넘길 수 있는 결과¶
- Phase 2: FL 방법 간 차이 미미, FedAvg가 복잡도 대비 합리적 선택 — 통과
- Phase 3 MSE/MAE 기준: Fed-Direct의 cold-start 효과 — 통과
- Phase 3 PAPE 해석: 수정 후 통과 (trade-off 프레이밍)
- Phase 3 FT 과적합 결론: early stopping 추가 후 재실험 필요