Source: report/version6/exp-expert/v6_0415_exp6_3seed_mse_equiv.md

Exp6 3-Seed 반복 및 MSE 등가 검증 보고서¶

실험: FeDPM Phase 2 통계적 유의성 검증
날짜: 2026-04-15
스크립트: experiments/distillation/v6_0415_fedpm_original.py

1. 3-Seed 반복 실험 (alpha=2.0, beta=2.0)¶

Phase 2 최적 설정(alpha=2.0, beta=2.0)의 결과가 seed에 의존적인지 확인.

Seed	MSE	PAPE (%)	HR (%)
42	0.543	42.67	27.8
123	0.540	43.68	27.2
456	0.545	43.95	27.2
Mean	0.543	43.43	27.4
Std	0.003	0.67	0.3

Apt	seed=42	seed=123	seed=456	Mean	Std
Apt6	39.59	39.75	40.56	39.97	0.51
Apt15	38.67	40.27	40.78	39.90	1.11
Apt30	45.75	47.67	47.80	47.07	1.15
Apt51	47.92	48.91	49.52	48.78	0.81
Apt88	41.44	41.81	41.06	41.44	0.37

beta=2.0의 개선이 Peak-Weighted Loss 효과인지, 단순 MSE 전환 효과인지 분리.

설정	MSE	PAPE (%)	HR (%)	CB Util (%)
beta=2.0 (Peak Loss)	0.543	42.67	27.8	3.8
beta=100 (≈MSE)	0.560	46.24	23.4	15.5
차이	+0.017	+3.57	-4.4	+11.7

Apt	beta=2.0	beta=100	Δ
Apt6	39.59	41.03	+1.44
Apt15	38.67	40.49	+1.83
Apt30	45.75	48.14	+2.39
Apt51	47.92	52.92	+5.00
Apt88	41.44	48.60	+7.16

Peak-Weighted Loss의 고유 효과 확인: beta=100(≈MSE)은 PAPE가 3.57%p 나쁨
특히 Apt88(+7.16%p), Apt51(+5.00%p)에서 Peak Loss의 효과가 큼
beta=100에서 codebook util이 15.5%로 높아진 것은 흥미로움 — MSE가 codebook 활용을 더 촉진하나 피크 정확도는 떨어짐
결론: beta=2.0의 개선은 "MSE로 바꾼 효과"가 아니라 Peak-Weighted Loss의 고유 기여