Source:
report/version6/exp-critic/v6_0418_fl_baseline_adversarial_review.md
적대적 리뷰: Exp6 FeDPM 최종 보고서 (FL 베이스라인 평가 중심)¶
종합 판정 (Reviewer 2 stance): REJECT for top-tier FL venues (ICML/NeurIPS/AISTATS/ICLR). Workshop/도메인 특화지(KIIE) 수준에서는 CONDITIONAL PASS 가능, 단 다수의 프레이밍/베이스라인 보강 필수.
"FeDPM+DLinear(R1b) PAPE=38.40%가 전체 최선, 논문 기여 충분"이라는 보고서의 결론은 FL 연구로서 성립하지 않는다. 본 리뷰는 저자의 주장 하나하나를 반박한다.
1. FL 베이스라인의 단일성 (Critical)¶
문제점 1-1. FedAvg 단일 비교로 "FL 최선" 주장 불가¶
근거: - 최종 보고서 §3.3, §3.4에서 FL 카테고리의 베이스라인은 B1 (FedAvg+DLinear) 1종만 존재. - FedProx (Li et al., MLSys'20), SCAFFOLD (Karimireddy et al., ICML'20), FedNova (Wang et al., NeurIPS'20), MOON (Li et al., CVPR'21), FedDyn (Acar et al., ICLR'21) 중 어느 하나도 비교에 포함되지 않음. - 개인화 FL (pFL) 쪽도 전무: pFedMe (NeurIPS'20), Ditto (ICML'21), FedBN (ICLR'21), FedPer (NeurIPS'19 W), FedRep (ICML'21), FedAlt/FedSim 모두 누락.
왜 치명적인가: FeDPM은 codebook 교환이라는 비표준 FL mechanism이다. "비표준 FL"이 standard FedAvg 하나만 이기는 건 당연한 수준의 주장이며, VQ 관련 선행 FL 연구(FedKD류, FedVAE, Heterogeneous Prototype FL)와의 비교 없이는 "기여"라 부를 수 없다. 특히 개인화 경로(R1b의 DLinear local path)가 성능 기여의 핵심으로 지목된 이상, pFedMe·Ditto·FedBN 같은 parameter-partitioned pFL 기법과의 직접 비교는 필수이다.
reviewer 2 관점의 reject 멘트 예측:
"The only FL baseline is vanilla FedAvg. Given that the core contribution is claimed to be a personalization pathway (DLinear residual), the absence of comparisons against pFedMe, Ditto, FedPer, or FedBN makes the personalization claim unsupported. Further, standard FL baselines addressing client heterogeneity (FedProx, SCAFFOLD) are entirely missing. I cannot recommend acceptance."
심각도: Critical 재실험 권고: 최소 3개 추가 FL baseline 실행 — (1) FedProx (μ=0.01/0.1), (2) FedBN (BatchNorm 로컬), (3) Ditto (λ=0.1/1.0). DLinear 헤드에 맞게 포팅 가능하며, 기존 v6_0415_fedpm_original.py의 FedAvg 루틴을 재사용하면 각 ~반나절 작업.
문제점 1-2. "가장 단순한 Local B0"가 FeDPM을 이긴 사실의 프레이밍 누락¶
근거: - 최종 보고서 §3.4 PAPE 순위: R1b(38.40%) > NHITS(39.73%) > B0 DLinear(42.55%) > P1(42.67%) - B0는 FL이 전혀 아니다. 단순 Local DLinear인데 P1, TimeMoE(43.38%), B1(43.55%)보다 PAPE가 좋다. - MSE로 보면 B0(0.522) > B1(0.505)만이 R1b(0.625)보다 낫고, 대부분의 FL 결과가 B0를 넘지 못한다.
왜 치명적인가: FL의 존재가치(value proposition)는 "데이터를 모으지 않고도 Local 단독보다 나은 성능"인데, 이 실험 전체에서 그 명제가 성립하지 않는다. R1b가 PAPE에서 B0를 -4.15%p 앞서지만 MSE는 +20% 악화. 이는 "FL이 이득이다"가 아니라 "DLinear local path + peak-weighted loss"의 효과이며, VQ 공유(= FL 부분)의 순효과를 분리하면 음(-)일 가능성이 크다.
reviewer 2 reject 멘트 예측:
"The simplest non-FL baseline (Local DLinear) outperforms the proposed method in MSE by 20% and is within noise in PAPE. The FL pathway provides no demonstrable benefit; the improvement attributed to the method is confounded by a local personalization head that does not require FL."
심각도: Critical 재실험 권고: Ablation 필수 — "B0 DLinear + Peak-Weighted Loss (FL 없이)" 1종 추가. 이 결과가 R1b PAPE에 근접하면 FL 기여가 0임이 확정된다.
2. FeDPM의 FL 기여 주장 검증 실패 (Critical)¶
문제점 2-1. "통신 효율" 주장의 측정 증거 부재¶
근거:
- 보고서 §4.3 문장: "VQ codebook의 역할은 '패턴 사전'보다 'FL 통신 효율'"
- 그러나 codebook 크기(bytes), 라운드당 통신량, FedAvg 대비 bytes/round 비율 등 어떤 통신 지표도 §3, §5에 기록되지 않음
- 코드 검색 결과 (experiments/distillation/ 내 communication|bytes|bandwidth|payload 패턴): 0건 매치. 실험 스크립트에 통신 비용 측정 자체가 없다.
왜 치명적인가: FL 논문에서 "통신 효율"은 구체적 수치 (MB/round, 총 MB, 수렴까지 total bytes, FedAvg 대비 reduction %)로 제시되어야 한다. Konečný et al. (2016)부터 현재까지 이 관행은 예외 없다. 측정 없이 "통신 효율 역할"이라 쓰는 것은 non-substantiated claim이며, 논문 제출 시 가장 먼저 지적되어 reject 사유가 된다.
특히 FedAvg(DLinear ~4.6K params 공유) vs FeDPM(encoder+PMR+decoder ~180K 공유 + codebook)은 FedAvg가 오히려 훨씬 작을 가능성이 높다. 즉 FeDPM이 통신량을 늘렸을 가능성조차 있다.
reviewer 2 reject 멘트 예측:
"The claim that the VQ codebook serves a 'communication efficiency' role is entirely unsupported by measurement. No bytes/round, total upload/download volume, or efficiency ratios are reported. Given that FedAvg with DLinear transmits only ~4.6K parameters while the FeDPM model transmits a ~180K encoder/PMR/decoder plus codebook, the method is likely more communication-expensive, not less."
심각도: Critical
재실험 권고:
1. 각 라운드의 실제 업로드/다운로드 bytes 측정 (per-client, aggregated). torch.numel() * element_size() 합산으로 바로 가능.
2. FedAvg vs FeDPM vs FeDPM+R1b의 수렴까지 total bytes 비교 표 작성.
3. Pareto curve (통신량 vs PAPE) 제시. 기여를 주장하려면 FedAvg Pareto보다 좌상단에 있어야 한다.
문제점 2-2. Codebook util 3~6% 상태에서 "통신 효율" 주장은 논리적 모순¶
근거: - 보고서 §5: 50 clients에서도 codebook util = 3.1~3.6%. 5 clients에서 3.8%. - M=64 중 실사용 2~6개 (3~10%). 나머지 58~60개는 dead entry. - Phase 1 critic 리뷰 (C1, 본 파일 부록): encoder 구조 결함으로 codebook이 본질적으로 작동 안 한다는 지적이 해결되지 않은 채 승계됨.
왜 모순인가: "codebook이 통신 효율의 열쇠"라 주장하려면 codebook이 실제로 informative해야 한다. 3% util = 거의 사용 안 됨 = M=4짜리 tiny codebook이어도 결과 동일. 이 상태에서는 codebook이 communication payload의 "쓸모 있는" 부분이 아니라 dead weight이며, 그걸 주고받는 것이 '효율'일 수 없다.
또한 codebook collapse 상태에서 R1b가 38.40%를 달성했다는 사실은, R1b의 성능이 DLinear residual 단독 공헌임을 강하게 시사한다. VQ path는 거의 상수(2~6개 entry만 쓰이는 near-identity)로 수축했고, 실제 예측은 DLinear가 했을 개연성이 크다.
심각도: Critical
재실험 권고:
1. VQ path ablation: R1b에서 VQ path 출력을 0으로 고정(y_vq := 0)했을 때 DLinear 단독 성능 측정. R1b와 유사하면 "FL 기여 0" 확정.
2. R1b의 |y_vq|/|y_dlinear| 기여 비율 측정. Phase 3(MLP residual)에서는 측정했으나 (VQ 64%, Res 36%), R1b에서는 동일 분석 누락.
3. |y_dlinear| 단독으로 B0와 비교 (동일 파라미터 수, FL 통신 비용만 추가된 경우 FL이 손해인지 확인).
3. Non-IID 및 이질성 측정 부재 (High)¶
문제점 3-1. Heterogeneity 지표 0건¶
근거: - 최종 보고서 §2, §5 어디에도 Dirichlet α, KL-divergence, Wasserstein distance, per-client distribution statistics가 없다. - EC50은 동일 데이터셋이므로 저자는 암묵적으로 "자연 Non-IID"라 가정하고 있으나, 정량화가 전혀 없다. - FL 커뮤니티의 표준은 (Hsu et al., 2019 "Measuring the Effects of Non-Identical Data Distribution for FL") 이후 heterogeneity measure 보고가 사실상 의무.
왜 문제인가: (a) "FeDPM이 동일 도메인에서 부적합"이라는 §4.1의 negative finding은 그 도메인이 얼마나 동질적인지 알아야 해석 가능. 단순 EC50 5가구로 "동일 도메인"이라 선언하는 건 reviewer가 수용하지 않는다. (b) 50 clients 실험에서 "스케일 효과 없음"(§5)이 VQ 구조적 한계 때문인지, heterogeneity가 너무 낮아 FL 자체가 불필요한 세팅인지 구분 불가.
심각도: High 재실험 권고: 1. 각 client의 일일 평균/분산/피크 시간 분포 Wasserstein-1 distance 매트릭스 (5×5, 50×50). 2. 동일한 EC50 가구 pool에서 Dirichlet α ∈ {0.1, 0.5, 1.0, 10.0} partition을 인위적으로 구성하여 heterogeneity 민감도 곡선 제시. 3. 이 과정에서 B1(FedAvg)과 R1b의 heterogeneity 의존도 차이 관찰이 논문의 새로운 contribution이 될 수 있음.
문제점 3-2. "50 clients에서 스케일 효과 없음" 결론의 대안 가설 미배제¶
근거: - 보고서 §5: 50 clients PAPE 47.22% (EVAL 5가구) → 5 clients 42.67% 대비 악화 - 저자 해석: "VQ codebook의 한계가 클라이언트 수와 무관하게 구조적" - 대안 가설 3개가 모두 미검증: - (a) HP 미튜닝: 50 clients에 대해 lr, local epochs, rounds가 5 clients와 동일. 50 clients는 aggregation noise가 커지므로 lr ↓ 또는 local epochs ↑가 표준. - (b) Memory Alignment 동작 실패: 보고서 자체가 "50가구 유사 codebook 평균화로 개인화 희석"이라 서술하지만 이는 alignment hyper-parameters (γ=0.8, δ=0.7)가 클라이언트 수에 rescale 안 된 것이 원인일 수 있음. - (c) Client sampling 부재: 매 라운드 전체 50 클라이언트 참여인지, partial participation인지 불명. 전체 참여 FedAvg는 현실적 FL 세팅이 아님.
reviewer 2 reject 멘트 예측:
"The 'no scale effect' finding is attributed to a structural limitation of VQ, but the alternative explanations — unchanged learning rate at 10x client count, fixed alignment hyperparameters (γ, δ) across scales, and unclear client sampling strategy — are not ruled out. The negative result is therefore inconclusive."
심각도: High 재실험 권고: 1. 50 clients에서 lr grid: {5e-6, 1e-5, 2e-5, 5e-5}. 2. γ ∈ {0.5, 0.8, 0.95}, δ ∈ {0.5, 0.7, 0.9} 재탐색. 3. Partial participation (C=0.1, 0.2) 실험. 4. 이 세 가지 모두에서 개선 없으면 비로소 "구조적 한계" 주장 가능.
4. 개인화(Personalization) 주장의 공정성 (Critical)¶
문제점 4-1. pFL SOTA와 비교 전무¶
근거: - 보고서 §4.1 "DLinear Residual이 가장 효과적인 개인화 경로" — 그런데 "가장 효과적"이라는 주장을 비교 대상 없이 한다. - 표준 pFL 기법 비교 없음: pFedMe (personalization via Moreau envelopes), Ditto (dual-task: global + personal), FedBN (local BN), FedRep (shared rep + personal head), FedPer. - DLinear residual = "global VQ + local DLinear head"는 본질적으로 FedRep 구조의 특수형. FedRep과의 직접 비교가 없으면 "새로운 개인화 경로"가 아니다.
왜 치명적인가: ICML/NeurIPS에서 "novel personalization"이라 주장하려면 최소 3~4개 pFL baseline을 이겨야 한다. 특히 FedRep (Collins et al., ICML 2021)은 구조적으로 거의 동일하며, reviewer는 즉시 "이건 FedRep with a DLinear personal head 아닌가"라 물을 것이다.
심각도: Critical 재실험 권고: 1. FedRep: shared encoder (우리 VQ encoder+PMR+decoder와 동등) + personal head (DLinear). 파라미터 예산 동일하게 맞춤. 2. Ditto: 동일 모델 아키텍처로 λ ∈ {0.01, 0.1, 1.0} 탐색. 3. FedBN: DLinear 내 LayerNorm을 로컬 유지. 4. 이 3개 중 1개라도 R1b와 동등하거나 더 좋으면 "novel personalization" 주장 철회 필요.
문제점 4-2. "FL 공유(VQ) + 로컬 개인화(DLinear) 이중 경로" 기여의 실체¶
근거: - §7 "논문 기여 정리" 3번: "VQ+DLinear 이중 경로 아키텍처" - 그러나 이 "이중 경로"의 두 경로 중 VQ path는 codebook util 3~6%로 거의 무의미 상태(§4.3 자인). 즉 사실상 "이중 경로"가 아니라 "DLinear 경로 + 쓸모없는 VQ 부속"이다. - FL 연구 관점에서 이 아키텍처의 "FL-specific" 기여는 codebook 공유뿐인데, codebook이 학습되지 않으므로 FL 기여가 measured 0에 수렴한다.
심각도: Critical (기여 주장의 근본 신뢰성) 재실험 권고: 3-1의 ablation과 결합하여 y_vq=0 실험 실시. R1b와 성능이 거의 같으면 "이중 경로" 표현을 철회하고 "DLinear 단경로 with FL-agnostic training" 으로 정직하게 프레이밍.
5. 통계적 엄밀성 (High)¶
문제점 5-1. R1b가 single seed, "전체 최선" 주장의 신뢰도¶
근거: - 3-seed 반복은 P1 (alpha=2, beta=2)만 실시 (report/version6/exp-expert/v6_0415_exp6_3seed_mse_equiv.md). - P1 결과: PAPE 42.67 (seed=42), 43.68 (seed=123), 43.95 (seed=456). Mean=43.43, Std=0.67. - R1b(38.40%)는 seed=42 단일 실행. 3-seed 반복 미실시. - 보고서 §6 "방향 A"에 "3-seed 반복으로 R1b 안정성 검증"이 미래 작업으로 언급됨 → 즉 저자 스스로도 현재 R1b의 통계적 신뢰성이 부족함을 인정.
왜 문제인가: - P1의 seed 분산이 ±0.67%p인데, R1b도 비슷한 분산이라고 가정하면 R1b의 95% CI는 대략 [37.1%, 39.7%]. - NHITS PAPE 39.73%는 이 CI 상단. 즉 R1b "최선" 주장은 seed 운의 가능성을 배제 못함. - P1(42.67, seed=42) vs R1b(38.40, seed=42)의 -4.27%p 차이도 multi-seed paired t-test 없이는 유의하다 단언 불가.
reviewer 2 reject 멘트 예측:
"The headline result (R1b PAPE 38.40%) is from a single seed, while the comparison point P1 has a std of ±0.67%p across 3 seeds. The claimed 4.27%p improvement lacks statistical support. The authors themselves list 'R1b 3-seed reproduction' as future work in §6, which is itself an admission that the main result is insufficiently validated."
심각도: High → (논문 제출 직전엔) Critical 재실험 권고: 1. R1b seed ∈ {42, 123, 456, 789, 2024} 5회 반복. 비용 ≈ 반나절. 2. Paired t-test (5가구 × 5 seed = 25 pair) 또는 Wilcoxon signed-rank test로 P1 대비 유의성 확인. 3. 모든 비교 모델 공통 3-seed 이상 보고 강제 (B0, B1, NHITS, TimeMoE).
6. "MSE 트레이드오프" 프레이밍의 실용적 위험 (High)¶
문제점 6-1. MSE 20% 악화의 ESS 실무 영향 미검증¶
근거: - R1b MSE 0.625 vs B0 MSE 0.522 → +19.7%, 보고서도 "20% 악화"라 기재 (§6 "방향 A"). - CLAUDE.md 프로젝트 목표: "BESS 시뮬레이션 검증". 즉 예측의 궁극 효용은 BESS 운영 비용 감소. - 그러나 R1b PAPE 개선 4.3%p가 BESS 비용에 미치는 영향은 본 보고서 어디에도 계산되지 않음.
왜 문제인가:
기존 agent memory (v6 Exp1 compute_metrics bug, PAPE dual definition risk, BESS C-rate issue 등)에서 이미 "PAPE → BESS 비용 연결 고리가 약하다"가 여러 차례 지적됨. 심지어 v6_exp1_compute_metrics_bug.md에는 최적화 비용이 실제 load가 아닌 forecast로 계산되는 버그가 있어 "PAPE 개선 → 비용 절감" 인과 관계 자체가 검증되지 않음.
reviewer 2 (특히 energy systems track) reject 멘트 예측:
"The proposed method sacrifices 20% MSE for a 4.3%p PAPE improvement. Without a downstream ESS/BESS cost simulation showing this trade-off yields net economic benefit, the practical value of the method is unsubstantiated. In fact, it is plausible that the MSE degradation increases off-peak dispatch costs by more than the peak-shaving gain."
심각도: High 재실험 권고: 1. B0, B1, P1, R1b 예측을 BESS 시뮬레이터에 입력 → TOU 기준 일일 전기요금 계산. 2. 특히 비피크 구간 MSE 악화가 SoC 오판으로 이어지는 failure mode 분석. 3. Pareto curve (MSE vs PAPE → 최종 비용)로 R1b가 Pareto frontier 상인지 확인.
문제점 6-2. 보고서 §6 "방향 A" 목표치의 자의성¶
근거: - §6: "목표: PAPE < 38% AND MSE < 0.56" - 이 38%, 0.56 수치는 어디서 왔는지 근거 없음. "PAPE < NHITS(39.73%)" 또는 "MSE < B1(0.505)" 같은 기존 baseline 근거가 아님.
심각도: Minor (서술 문제) 권고: 목표를 "Pareto dominate B0 (MSE ≤ 0.522 AND PAPE ≤ 42.55%)" 또는 "R1b MSE를 P1 수준(0.543)까지 회복"처럼 baseline 기반으로 재정의.
7. 50 clients 결과 해석의 selection bias (High)¶
문제점 7-1. Negative 결과를 "도메인 탓"으로 전가¶
근거: - 보고서 §5 결론: "동일 도메인에서 VQ codebook의 한계가 클라이언트 수와 무관하게 구조적" - 그러나 Phase 1 critic 리뷰 (C1~C3): 우리 encoder/decoder/MuStdModel 구현이 원본과 다르다는 지적이 이미 문서화되어 있음. - 따라서 현재 결과는 "VQ 구조적 한계"가 아니라 "간소화된 우리 FeDPM 구현의 한계"로 해석해야 공정.
왜 문제인가: 이는 exp-critic이 Phase 1에서 이미 지적한 "FeDPM이 동일 도메인에서 부적합하다"의 성급한 결론 문제가 최종 보고서에서도 교정되지 않았다는 의미. 저자가 이 비판을 받아들였다면 "우리 구현의 한계"라 기술해야 옳다.
심각도: High 재실험 권고: 1. 최종 보고서 §4.1, §5, §7의 "FeDPM 동일 도메인 부적합" 서술을 "본 구현의 간소화된 FeDPM이 동일 도메인에서 codebook을 활용하지 못함. 원본 구조 faithful 포팅 후 재검증 필요"로 수정. 2. 또는 원본 encoder/decoder/MuStdModel 포팅 후 본 실험 재실행하여 진짜로 실패하는지 확인.
8. 기타 방법론적 문제 (Medium)¶
8-1. Loss function 비일관성 지속 (Medium)¶
Phase 2 critic 리뷰에서 이미 지적된 "B1=MSE, V1/P1/R1b=SmoothL1(β=2.0)" 불일치가 최종 보고서에서도 해결되지 않은 채 비교에 사용됨. SmoothL1(β=2.0) ≈ MSE×0.5임을 저자가 인정하고서도 "Peak Loss 고유 효과"라 결론.
8-2. NHITS, TimeMoE 등 비교 모델의 학습 조건 불명 (Medium)¶
§3.3 표에서 NHITS "NF 학습"이라고만 표기. 동일 train/val/test split, 동일 seed, 동일 optimizer family 사용 여부 불명. TimeMoE/Chronos/Moirai는 zero-shot이므로 공정 비교가 아님(FM은 학습 없이 평가, 우리 R1b는 EC50으로 학습). 이것은 피할 수 없는 한계이나 보고서에 명시 필요.
8-3. PAPE 정의의 재검증 (Medium)¶
agent memory의 pape_dual_definition_risk.md 지적: 프로젝트 내에 window-max PAPE와 signal-processing PAPE가 공존. 보고서는 어느 정의를 썼는지 단일 지점에 정의하지 않음. Cross-experiment 비교 전에 확인 필수.
9. FL 논문으로서의 최종 진단¶
9-1. Top-tier FL venue (ICML/NeurIPS/AISTATS/ICLR) 제출 가능성: 매우 낮음¶
근거: - §1, §2, §4 — 베이스라인 부족 (Critical) - §2-1 — 통신 비용 측정 부재 (Critical) - §2-2, §4-2 — 주장과 실제 메커니즘의 괴리 (Critical) - §3, §4-1 — 이질성 측정 부재 + pFL 비교 부재 (Critical/High)
이들 중 하나만 있어도 top-tier reject 사유이며, 현재 최소 4개 이상이 Critical 상태.
9-2. FL 관련 2nd-tier (UAI/AAAI/IJCAI/Transactions) 제출 가능성: 낮음¶
통신 비용 측정과 FL baseline 1~2종 추가로도 §4 개인화 기여 문제가 남는다. Major revision 전제.
9-3. Energy/ESS 도메인 저널 (Applied Energy, IEEE TSG, KIIE) 제출 가능성: Conditional PASS¶
조건: - "FL contribution"이 아닌 "peak prediction model with FL training" 으로 프레이밍 전환 - 즉 contribution을 "Peak-Weighted Loss + DLinear residual for household peak prediction"로 축소 - FL을 enabling technology로 위치, "FeDPM이 FL 방법론 기여"라는 주장 삭제 - BESS 시뮬레이션 연결 필수 (§6-1 참조)
9-4. Workshop (NeurIPS FL workshop, FL-ICML 등): 현 상태로 제출 가능¶
단, 통신 비용 측정 + 최소 1개 추가 FL baseline (FedProx 또는 FedBN) 정도는 보강 필요. "Preliminary exploration" 프레이밍이 전제.
10. exp-expert / lab-leader 전달 사항 (필수 행동 항목)¶
즉시 (논문 착수 이전) 필수¶
- 추가 FL 베이스라인 최소 3종: FedProx, FedBN, Ditto. 동일 모델 아키텍처 및 예산으로.
- 통신 비용 측정: per-round bytes, total bytes to convergence, FedAvg 대비 ratio. 표/Pareto plot 제시.
- VQ path ablation: R1b에서 y_vq=0 고정 실행. DLinear 단독 성능과 비교하여 FL 기여 정량화.
- R1b 3-seed 반복 + paired t-test: P1, B0, B1 대비 유의성 검증.
- Heterogeneity 측정: 5가구/50가구의 Wasserstein-1 matrix + 일일 피크 시간 분포.
논문 프레이밍 수정¶
- "FeDPM 동일 도메인 부적합" → "본 간소화 구현의 한계" (Phase 1 critic 지적 반영)
- "VQ codebook의 FL 통신 효율" → 측정 없으면 주장 삭제
- "VQ+DLinear 이중 경로" → VQ util 3%면 정직하게 "DLinear dominant, VQ as weak regularizer" 로 표현
- "전체 최선 PAPE 38.40%" → "단일 시드 R1b 최선 (CI 기반 서술)"
50 clients 재실험¶
- lr, γ, δ sweep 후에야 "스케일 효과 없음" 결론 서술
- Partial participation (C=0.1, 0.2) 세팅으로 현실성 확보
- 클라이언트 heterogeneity 측정 동반
BESS 연결¶
- R1b 예측을 BESS 시뮬레이터에 통과시켜 TOU 비용 계산
- MSE 20% 악화의 실제 경제적 손실/이득 quantify
부록 A: 기존 critic 리뷰와의 일관성¶
본 리뷰는 아래 기존 지적들이 최종 보고서에서 해결되지 않은 채 남아 있음을 확인한다:
v6_0415_exp6_fedpm_phase1_review.mdC1 (encoder 구조 결함) → 해결 안 됨, 여전히 codebook util 3~6%v6_0415_exp6_fedpm_phase1_review.mdC4 (B1 vs V1 federation 규모 불일치) → 부분 해결, 그러나 B1을 50 clients로 재실행했는지 명시 없음v6_0415_exp6_fedpm_phase1_review.mdM1 (loss function 불일치) → 해결 안 됨v6_0415_exp6_phase2_beta_sweep_review.md§2 (B0/B1 미초월) → 해결 안 됨, 오히려 R1b가 MSE에서 더 악화v6_0415_exp6_phase2_beta_sweep_review.md§3a (단일 시드) → R1b에서 여전히 단일 시드 문제
즉, 기존 critic의 핵심 지적들이 해결되지 않은 채 "CONDITIONAL PASS"로 승격되었다. 이것은 exp-critic 리뷰 프로세스의 integrity에 문제가 있다는 의미이기도 하다.
부록 B: 이 리뷰의 한계¶
- 본 리뷰는 FL 관점에 특화. Peak-Weighted Loss 자체의 수학적 유효성은 별개 분석 필요.
- 50 clients 실험 결과의 MLflow raw logs를 직접 확인하지 않음. Partial participation 여부는 코드 재확인 필요.
- R1b 3-seed 재실험은 반나절 수준 작업으로 추정되나, 50 clients × lr sweep은 계산 비용 상당할 수 있음.
최종 판정 (Reviewer 2 stance): 현 상태의 Exp6 결과는 FL 방법론 논문으로서 Top-tier 제출 시 reject. 에너지 도메인 저널 제출 시 major revision. "논문 기여 충분"이라는 저자의 결론은 과도하다.