콘텐츠로 이동

Source: report/version6/exp-expert/v6_0415_exp6_3seed_mse_equiv.md

Exp6 3-Seed 반복 및 MSE 등가 검증 보고서

  • 실험: FeDPM Phase 2 통계적 유의성 검증
  • 날짜: 2026-04-15
  • 스크립트: experiments/distillation/v6_0415_fedpm_original.py

1. 3-Seed 반복 실험 (alpha=2.0, beta=2.0)

목적

Phase 2 최적 설정(alpha=2.0, beta=2.0)의 결과가 seed에 의존적인지 확인.

결과

Seed MSE PAPE (%) HR (%)
42 0.543 42.67 27.8
123 0.540 43.68 27.2
456 0.545 43.95 27.2
Mean 0.543 43.43 27.4
Std 0.003 0.67 0.3

가구별 PAPE (3-seed)

Apt seed=42 seed=123 seed=456 Mean Std
Apt6 39.59 39.75 40.56 39.97 0.51
Apt15 38.67 40.27 40.78 39.90 1.11
Apt30 45.75 47.67 47.80 47.07 1.15
Apt51 47.92 48.91 49.52 48.78 0.81
Apt88 41.44 41.81 41.06 41.44 0.37

해석

  • MSE 표준편차 ±0.003, PAPE 표준편차 ±0.67%p → 안정적
  • B0 PAPE(42.55%)와 비교: 3-seed 평균 43.43%로 약 +0.88%p 차이
  • seed=42가 가장 좋은 결과를 냈지만, 3-seed 평균으로도 B0와 근접

2. MSE 등가 검증 (beta=100 ≈ Pure MSE)

목적

beta=2.0의 개선이 Peak-Weighted Loss 효과인지, 단순 MSE 전환 효과인지 분리.

결과

설정 MSE PAPE (%) HR (%) CB Util (%)
beta=2.0 (Peak Loss) 0.543 42.67 27.8 3.8
beta=100 (≈MSE) 0.560 46.24 23.4 15.5
차이 +0.017 +3.57 -4.4 +11.7

가구별 PAPE 비교

Apt beta=2.0 beta=100 Δ
Apt6 39.59 41.03 +1.44
Apt15 38.67 40.49 +1.83
Apt30 45.75 48.14 +2.39
Apt51 47.92 52.92 +5.00
Apt88 41.44 48.60 +7.16

해석

  • Peak-Weighted Loss의 고유 효과 확인: beta=100(≈MSE)은 PAPE가 3.57%p 나쁨
  • 특히 Apt88(+7.16%p), Apt51(+5.00%p)에서 Peak Loss의 효과가 큼
  • beta=100에서 codebook util이 15.5%로 높아진 것은 흥미로움 — MSE가 codebook 활용을 더 촉진하나 피크 정확도는 떨어짐
  • 결론: beta=2.0의 개선은 "MSE로 바꾼 효과"가 아니라 Peak-Weighted Loss의 고유 기여