Exp6 3-Seed 반복 및 MSE 등가 검증 보고서
- 실험: FeDPM Phase 2 통계적 유의성 검증
- 날짜: 2026-04-15
- 스크립트:
experiments/distillation/v6_0415_fedpm_original.py
1. 3-Seed 반복 실험 (alpha=2.0, beta=2.0)
목적
Phase 2 최적 설정(alpha=2.0, beta=2.0)의 결과가 seed에 의존적인지 확인.
결과
| Seed |
MSE |
PAPE (%) |
HR (%) |
| 42 |
0.543 |
42.67 |
27.8 |
| 123 |
0.540 |
43.68 |
27.2 |
| 456 |
0.545 |
43.95 |
27.2 |
| Mean |
0.543 |
43.43 |
27.4 |
| Std |
0.003 |
0.67 |
0.3 |
가구별 PAPE (3-seed)
| Apt |
seed=42 |
seed=123 |
seed=456 |
Mean |
Std |
| Apt6 |
39.59 |
39.75 |
40.56 |
39.97 |
0.51 |
| Apt15 |
38.67 |
40.27 |
40.78 |
39.90 |
1.11 |
| Apt30 |
45.75 |
47.67 |
47.80 |
47.07 |
1.15 |
| Apt51 |
47.92 |
48.91 |
49.52 |
48.78 |
0.81 |
| Apt88 |
41.44 |
41.81 |
41.06 |
41.44 |
0.37 |
해석
- MSE 표준편차 ±0.003, PAPE 표준편차 ±0.67%p → 안정적
- B0 PAPE(42.55%)와 비교: 3-seed 평균 43.43%로 약 +0.88%p 차이
- seed=42가 가장 좋은 결과를 냈지만, 3-seed 평균으로도 B0와 근접
2. MSE 등가 검증 (beta=100 ≈ Pure MSE)
목적
beta=2.0의 개선이 Peak-Weighted Loss 효과인지, 단순 MSE 전환 효과인지 분리.
결과
| 설정 |
MSE |
PAPE (%) |
HR (%) |
CB Util (%) |
| beta=2.0 (Peak Loss) |
0.543 |
42.67 |
27.8 |
3.8 |
| beta=100 (≈MSE) |
0.560 |
46.24 |
23.4 |
15.5 |
| 차이 |
+0.017 |
+3.57 |
-4.4 |
+11.7 |
가구별 PAPE 비교
| Apt |
beta=2.0 |
beta=100 |
Δ |
| Apt6 |
39.59 |
41.03 |
+1.44 |
| Apt15 |
38.67 |
40.49 |
+1.83 |
| Apt30 |
45.75 |
48.14 |
+2.39 |
| Apt51 |
47.92 |
52.92 |
+5.00 |
| Apt88 |
41.44 |
48.60 |
+7.16 |
해석
- Peak-Weighted Loss의 고유 효과 확인: beta=100(≈MSE)은 PAPE가 3.57%p 나쁨
- 특히 Apt88(+7.16%p), Apt51(+5.00%p)에서 Peak Loss의 효과가 큼
- beta=100에서 codebook util이 15.5%로 높아진 것은 흥미로움 — MSE가 codebook 활용을 더 촉진하나 피크 정확도는 떨어짐
- 결론: beta=2.0의 개선은 "MSE로 바꾼 효과"가 아니라 Peak-Weighted Loss의 고유 기여