exp-critic 리뷰: Phase 2 Beta Sweep 결과¶

판정: CONDITIONAL PASS¶

H6-2의 형식적 기준(P1 PAPE < V1 PAPE)은 충족하나, 실질적 의미는 매우 약하다.

1. beta=2.0 선택의 타당성¶

문제점 (Critical)¶

beta sweep 범위가 불충분하다. beta=0.1 -> 0.5 -> 1.0 -> 2.0에서 PAPE가 단조 감소하는 추세인데 탐색을 중단한 근거가 없다. beta=3.0, 4.0, 8.0을 시도하지 않았다.

beta=2.0이면 SmoothL1의 L1/L2 전환점이 2.0 kW다. 역정규화된 kW 스케일에서 거의 모든 오차가 L2(MSE) 영역에 속한다. 즉 SmoothL1의 outlier-robust 특성을 사실상 비활성화한 것이며, F.smooth_l1_loss(beta=2.0)은 F.mse_loss() * 0.5와 거의 동치다. 이것은 설계서에서 "원본 FeDPM은 SmoothL1을 outlier robustness로 채택"이라고 명시한 것과 모순된다.

Recommendation: beta=2.0이 실질적으로 MSE와 등가인지 수치적으로 확인해야 한다.

2. MSE-PAPE Trade-off¶

문제점 (Major)¶

제시된 결과에서 FeDPM의 어떤 설정도 B1(FedAvg+DLinear)의 MSE(0.505)를 이기지 못한다.

Model	MSE	PAPE
B0 (Local DLinear)	0.522	42.55%
B1 (FedAvg+DLinear)	0.505	43.55%
P1 (beta=2.0)	0.543	42.67%

FeDPM이 MSE에서도 PAPE에서도 baseline을 명확히 넘지 못했다. B0 대비 PAPE는 42.67% vs 42.55%로 +0.12%p 열위이며, 이것은 noise margin 내다.

"B0와 동등"이라고 해석하면 안 된다. 정확히는 "5-client 연합학습의 복잡한 FeDPM 파이프라인으로 Local DLinear와 동등한 성능을 달성"이며, 이는 FeDPM의 부가가치가 0이라는 의미다.

3. 실험 공정성¶

3a. 단일 실행 결론 (Critical)¶

beta sweep 4회가 모두 단일 seed(42)에서 1회씩만 실행되었다. PAPE 차이가 52.83% -> 42.67% (10%p)로 보이지만, 이것이 beta 효과인지 random initialization 차이인지 구분할 수 없다. 최소 3회 반복이 없으면 이 결과의 신뢰도는 제한적이다.

3b. 독립 초기화 여부¶

코드에서 torch.manual_seed(RANDOM_SEED)가 스크립트 최상단에 1회 고정(line 60-63). 각 beta 실행이 별도 프로세스라면 동일 초기화이므로 공정하지만, 실행 방식을 명시해야 한다.

3c. B1 baseline 공정성¶

B1은 MSE loss를 쓰고 V1/P1은 SmoothL1을 쓰는 차이가 여전히 존재한다.

4. Codebook Utilization 해석¶

문제점 (Minor)¶

beta	CB Util
0.1	2.0%
0.5	3.4%
1.0	3.4%
2.0	3.8%
V1 (Phase 1)	3.9%

Codebook utilization은 beta와 무관하게 2~4% 대에서 정체. Peak-Weighted Loss가 codebook 사용에 미치는 영향은 무의미한 수준이다.

5. H6-2 판정¶

형식적 PASS, 실질적 의미 약함¶

H6-2: P1(42.67%) < V1(49.77%) -> 형식적 PASS
그러나 B0(42.55%)와의 차이 +0.12%p는 noise 내
beta=2.0은 설계서의 P1 정의(beta=0.1 가정)와 다른 loss function
n=5 가구 중 3가구가 B0에 열위, 2가구만 우위

P1 명칭 문제¶

설계서에서 P1은 peak_weighted_smooth_l1(alpha=2.0)으로 정의, beta 미명시(기본 0.1 가정). beta=2.0은 loss function의 근본적 성격을 바꾸는 변경이므로, P1(alpha=2.0, beta=2.0)으로 명기해야 한다.

exp-expert 전달 사항 (필수)¶

beta=2.0과 pure MSE 등가성 검증 (1회 실험 추가)
beta=2.0 선택 근거 보충 또는 beta=3.0, 4.0 추가 탐색
최종 결론 시 최소 3-seed 반복 (MVP에서는 선택, 논문에서는 필수)
결론 표현 수정: "PAPE 개선" -> "beta 증가로 V1 대비 PAPE 개선, B0 대비 통계적 우위 미확인"
Phase 3에서 |Y_q| vs |Y_r| 비율 모니터링 필수

인정되는 강점¶

beta sweep 자체가 체계적이고 명확한 추세를 보여줌
역정규화 후 적용이라는 판단은 정확
가구별 상세 비교가 투명하게 제시됨