콘텐츠로 이동

Source: report/version6/exp-critic/v6_0418_defense_plan_adversarial_review.md

적대적 리뷰: 초록 방어 계획에 대한 reviewer 2 비판

종합 판정 (Reviewer 2 stance): REJECT for top-tier FL venues (ICML/NeurIPS/ICLR/AISTATS). Energy domain journal (IEEE TSG/Applied Energy)은 major revision 하에서 CONDITIONAL PASS. Workshop은 현 보강 완료 시 제출 가능.

이전 리뷰(v6_0418_fl_baseline_adversarial_review.md)에서 제기한 Critical 지적 4개 중 2개만 진짜로 해결 경로가 있고, 2개는 교묘하게 회피되었다. 더 심각하게, 이 방어 계획은 "초록은 고정, 실험은 그 초록을 방어하기 위해"라는 post-hoc rationalization 구조를 명시적으로 채택하고 있어, 과학적 방법론 관점에서 원천적 문제를 안고 있다.

본 리뷰는 방어 계획 각 절에 대해 reviewer 2 입장에서 반박하고, 추가로 발견한 결함을 열거한다.


0. 메타 비판: 초록 고정 + 실험으로 방어 구조의 원천적 문제 (Critical)

문제점 M-1. "초록을 방어하는" 프레임 자체가 HARKing의 제도화

근거: - 방어 계획 §0: "이 초록을 방어하거나, 방어 불가능한 문구만 최소 수정한다. 초록 자체를 교체하는 안은 없다." - 이는 결과를 먼저 확정하고(초록 = 가설 + 결론), 그 결론을 뒷받침하는 실험만 선별적으로 수행하겠다는 선언. - Hypothesizing After the Results are Known (HARKing) 의 제도화된 형태.

왜 치명적인가: - Branch A/B/C 분기 설계(§2)에서 "y_vq=0이 더 좋은 경우"가 원천적으로 배제되어 있다. "차이 > 2%p 유지 / < 1%p 수정"의 두 분기만 있고, y_vq=0 < R1b (즉 VQ가 해롭다)인 시나리오는 설계 자체에 없다. - 이는 null-result 또는 negative-result를 볼 수 있는 센서를 의도적으로 꺼놓은 상태다. - reviewer 2는 Branch 설계를 보는 순간 "이 저자들은 자신들이 원하는 결론을 이미 정해놨다"는 걸 간파한다.

reviewer 2 reject 멘트 예측:

"The decision tree in §2 defines branches only for 'VQ helps significantly' and 'VQ provides small-to-no benefit with rewording', but omits the case where VQ is actively harmful (y_vq=0 outperforms R1b). This asymmetric design, combined with the stated goal of 'defending the abstract', suggests the authors are not conducting falsifiable experiments but rather post-hoc rationalization."

심각도: Critical (과학적 방법론 위반)

권고: 1. Branch D 추가: y_vq=0 유의미하게 좋음 (PAPE 차이 > 2%p in opposite direction) → C3, C4 완전 재작성 또는 초록 구조 변경. 2. §0의 "초록은 변경 불가" 전제를 "결과가 support하지 않으면 C3/C4를 삭제하거나 재작성"으로 완화해야 과학적 정당성 확보.


1. y_vq=0 분기 전략의 허점 (Critical)

문제점 1-1. "1%p ~ 2%p 회색지대" Branch C 처리가 실질적으로 공란

근거: - §2 Branch C: "통계적으로 불확실. multi-seed 결과와 종합 판단." - 그러나 multi-seed 3회 (seed 42/123/456)로 1%p 미세 차이의 유의성을 검정하기엔 검정력(statistical power)이 원천적으로 부족하다. - Cohen's d = 0.5 (중간 효과) 기준으로도 3-seed는 α=0.05, power=0.8 달성 불가. 보통 n ≥ 20 필요. - 즉 Branch C는 "Branch A로 밀거나 Branch B로 퇴각"의 subjective decision이 되고, 방어 계획은 그 결정 기준을 제시하지 않음.

왜 치명적인가: - D+7 gate에서 "회색지대"가 나왔을 때 lab-leader가 어느 방향으로 분기할지 결정 기준이 없다. 결국 "초록 고정" 압력에 눌려 Branch A로 기울 개연성이 크다. - 이는 Branch C를 사실상 Branch A의 연장으로 만드는 장치다 (즉 2개 분기가 아니라 1.2개 분기).

reviewer 2 reject 멘트 예측:

"The claimed 3-seed ablation has insufficient power to resolve differences of 1-2 percentage points, yet the decision tree places this zone in an ambiguous category with no stated resolution criterion. This is not a statistical protocol; it is a negotiation table."

심각도: Critical

권고: 1. Branch C에 명시적 결정 규칙 추가: "bootstrap 95% CI가 0을 포함하지 않고 차이 방향이 일관되면 Branch A. 그렇지 않으면 Branch B." 2. seed 5회 이상 (42/123/456/789/2024) 로 확장하여 paired-test power 확보. 3. equivalence test (TOST) 을 병행하여 "차이 없음"을 적극 증명.

문제점 1-2. y_vq=0이 더 좋은 경우 (Branch D) 누락 (위 M-1과 중복, Critical 유지)

권고: Branch D를 명시하고 "C3 삭제 + 초록 문구 '(ii) a dual-path architecture …' 부분 재구성"까지 감수한다는 선언이 있어야 한다.

문제점 1-3. y_vq=0이 B0 DLinear(42.55%)보다 나쁠 가능성 미대비

근거: - R1b PAPE 38.40%. 이 중 VQ path 기여가 정말 크다면 y_vq=0 ≈ 42~43%일 수 있다. 즉 y_vq=0 < B0 될 수도 있음. - 이 경우 "VQ가 있어야 FL이 Local을 이긴다"가 되지만, FL에서 codebook 기여와 DLinear head가 얽혀 있어 VQ path만으로 FL 효과를 증명하지 못한다. 왜냐하면 y_vq는 global codebook 기반이며 DLinear는 local이므로, y_vq=0 실험은 "FL 전체 vs Local"이 아니라 "DLinear only vs DLinear+VQ"를 검정할 뿐.

재실험 권고: - 별도 B0' 실험 필요: "FedAvg로 DLinear만 공유 (VQ 없이), peak-weighted loss 동일". 이것이 진짜 FedAvg-DLinear 대조군. - 현 B1이 이미 FedAvg+DLinear라면 B0' = B1이므로 B1의 3-seed 재실행이 필수. 계획표에 없음.

심각도: Critical (누락된 대조군)


2. "Federated representation alignment" 용어 교체의 허점 (Critical)

문제점 2-1. Post-hoc rewording이 실질적 방어가 되는가

근거: - §2 Branch B: "pattern exchange" → "representation alignment" 로 단어 2개 교체. - 방어 계획의 논리: "codebook util이 낮더라도 VQ quantization 자체가 FL aggregation에서 representation을 정규화하는 역할을 할 수 있음." - 그러나 util 3~6% 상태에서 "alignment"도 불가능하다. Alignment는 codebook entries가 client 간에 의미 있게 공유되는 상태를 전제로 한다.

왜 치명적인가: - M=64 중 2~6개만 사용되고 나머지 58~60개가 dead entry인 상태는 "alignment가 일어나는 codebook"이 아니라 "collapsed codebook". - reviewer 2는 §2 Branch B를 보는 즉시: "저자들은 방법이 작동하지 않을 때 용어만 바꿔 주장을 유지하려고 한다"고 간파. 이는 의도적 과학적 honesty 결여로 해석될 수 있다. - 또한 "regularizer" 주장을 뒷받침하려면 regularization 효과의 정량 증거(loss variance, gradient norm, convergence speed)가 필요. 방어 계획 §2 Branch B에 이것이 미래 실험으로 언급되지만 D+1~D+7 타임라인 어디에도 없음.

reviewer 2 reject 멘트 예측:

"The proposed substitution of 'pattern exchange' with 'representation alignment' is a rhetorical rather than a scientific fix. With codebook utilization below 10%, neither framing is justified: the codebook is collapsed, not aligning representations across clients. Furthermore, the regularization claim requires quantitative evidence (loss variance across rounds, convergence dynamics), which is absent from the experimental plan."

심각도: Critical

권고: 1. "alignment" 용어를 쓰려면 반드시 동일 index가 다른 client에서 유사 semantic을 encode 한다는 증거(cross-client codebook usage overlap, t-SNE of used entries 등)가 필요. 2. 증거가 없으면 C3를 완전 삭제하고 초록의 (ii)를 "a lightweight DLinear architecture for per-household personalization" 로 축소하는 것이 정직한 선택. 3. util ≥ 30% 가 달성되지 않으면 어느 프레이밍도 방어 불가.


3. "Broad baselines" 기준 (High)

문제점 3-1. 3종(FedRep/Ditto/FedProx)이 "broad"로 성립하는가

근거: - 계획: FedRep + Ditto + FedProx 추가 → 총 FL 베이스라인 4종 (기존 FedAvg 포함). - 누락된 SOTA: SCAFFOLD (ICML'20), MOON (CVPR'21), FedBN (ICLR'21), pFedMe (NeurIPS'20), FedNova (NeurIPS'20), FedDyn (ICLR'21). - 에너지 특화 FL 논문도 누락: FedForecast (Energy AI), FedTime, PFSL(household clustering FL), Clust-FL for smart grid.

왜 문제인가: - 4종 FL baseline으로 "broad set of baselines"은 가능하지만 top-tier FL 논문의 표준 대비 여전히 빈약. 최근 ICML/NeurIPS FL 논문은 6~8종 비교가 기본. - 에너지 도메인 저널(TSG, Applied Energy)에서는 에너지 특화 FL 선행 연구와의 비교 부재가 reject 사유가 됨. 즉 FL generic baseline만 추가한 것은 top-tier와 domain journal 양쪽에서 모두 모자란다.

reviewer 2 reject 멘트 예측 (top-tier):

"The claim of 'broad baselines' rests on four FL methods (FedAvg, FedProx, FedRep, Ditto). SCAFFOLD, MOON, FedBN, and pFedMe are missing despite being standard choices in pFL comparisons. The claim of breadth is oversold."

reviewer 2 reject 멘트 예측 (Applied Energy/TSG):

"No comparison with energy-domain federated forecasting methods (e.g., FedForecast, clustered FL for smart grids). The method's claim of 'peak-aware FL' is not benchmarked against prior FL-for-energy work."

심각도: High

권고: 1. 최소 FedBN + SCAFFOLD 를 추가하여 총 6종 (FedAvg/FedProx/FedBN/SCAFFOLD/FedRep/Ditto)으로 확장. 2. 에너지 도메인 저널 제출 시 최소 1종의 에너지 특화 FL 추가 (FedForecast 등 재현 가능한 것). 3. 초록 문구 "broad set of baselines"을 정량화: "across X classical FL baselines and Y personalized FL baselines" 식으로 수치 약속.


4. 통계적 충분성 (Critical)

문제점 4-1. 3-seed로 9.8% reduction의 CI가 좁아지지 않음

근거: - 현재 P1의 3-seed std = ±0.67%p (리뷰 §5-1 참조). R1b도 비슷하다 가정하면 95% CI ≈ ±1.5%p. - 9.8% reduction = 42.55 → 38.40 = -4.15%p 절대값 → 상대 9.76%. - 절대값 CI 1.5%p → 상대 CI 약 ±3.5%p → 즉 9.8%의 95% CI가 [6.3%, 13.3%]. "9.8%" 수치가 CI 중앙에 있다는 보장 없음. - 특히 seed별 baseline B0(42.55%)도 single seed인데, B0 3-seed 재실행 계획이 D+1~D+7에 없음.

왜 치명적인가: - "9.8% 수치 방어"는 점추정뿐 아니라 대조군(B0) 안정성까지 요구한다. B0가 seed별로 ±1%p 흔들리면 9.8%도 흔들린다. - 방어 계획에 paired vs independent t-test 설계 자체가 없음. Paired test (동일 seed에서 R1b vs B0) 가 가능하려면 seed 매칭이 필수지만, 매칭 프로토콜 미명시. - 계획 §3 테이블에 "paired t-test"가 언급되나 통계량, α 수준, 효과 크기, 샘플 단위 (per-household? per-seed? per-sample?) 모두 미정의.

reviewer 2 reject 멘트 예측:

"The claimed 9.8% PAPE reduction is based on a point estimate from a single seed for both R1b and the B0 baseline. The proposed 3-seed reproduction lacks (a) matched seeds between experimental and control arms, (b) a specified statistical test (paired or independent), (c) a sample unit definition (per-household, per-seed, or per-sample), and (d) multiple-comparison correction across baselines. The statistical claim is not defensible as written."

심각도: Critical

권고: 1. B0, B1, P1, R1b, FedRep, Ditto, FedProx 모두 동일 seed 세트(≥5개)로 재실행. 단순 seed 3개로는 부족. 2. 분석 단위: per-household-per-seed 로 구체화 → 5 households × 5 seeds = 25 observations per model. 3. Paired Wilcoxon signed-rank test (정규성 가정 배제) + Bonferroni/Holm correction for multiple baselines. 4. Bootstrap 95% CI for 9.8% 수치 자체. CI가 0을 포함하지 않는지가 1차 방어선. 5. 9.8%가 CI 내 유지 못하면 초록 수치를 "9.8%" 대신 "significant reduction (exact value in main text)" 로 수정하거나 실제 point estimate ± CI 범위로 수정.


5. 통신 비용 측정 방법론 모호 (High)

문제점 5-1. "per-round bytes" 측정만으로 FL 통신 효율 서사 성립 불가

근거: - 계획 §4 D+5: "per-round bytes, FedAvg vs R1b 비교" 만 언급. 구체적으로: - (a) Upload vs download 구분 없음. - (b) Compression (FedAvg의 sparse update, FeDPM의 codebook index encoding)이 적용된 상태 vs 미적용 상태 구분 없음. - (c) Total bytes to convergence 계산 없음. - (d) Pareto (bytes vs PAPE) plot 약속 없음. - 핵심 위험: FedAvg가 DLinear ~4.6K params 만 전송. R1b는 DLinear 4.6K + VQ encoder/decoder/codebook 180K = 약 40배 더 많은 통신량. - FeDPM이 통신 효율이 좋다고 주장할 근거가 측정 후 오히려 반대 결과가 나올 가능성이 높다.

왜 문제인가: - 초록에 "communication efficiency" 문구는 없으나, FL 논문에서 통신 비용은 묵시적 필수 보고 사항. 측정하지 않거나 측정했는데 불리한 결과가 나오면 어느 쪽이든 타격. - 계획 §3의 "초록에 '통신 효율' 표현이 없으므로 통신 비용 미측정 문제는 초록 방어와 직결되지 않는다"는 주장은 안이함. Reviewer는 측정값을 요구하며, 불리한 결과는 본문 contribution 자체를 약화시킨다.

reviewer 2 reject 멘트 예측:

"Communication cost measurement is deferred to a single day (D+5) with only per-round bytes specified. No upload/download breakdown, no compression treatment, no total-bytes-to-convergence comparison, no Pareto plot. Moreover, the proposed method likely incurs ~40x the communication of FedAvg (180K vs 4.6K parameters). If so, the abstract's implied privacy/efficiency benefit is overturned."

심각도: High

권고: 1. 측정 프로토콜 명시: upload bytes per round per client, download bytes per round per client, total bytes to target PAPE. 2. Compression scheme 명시 (codebook index = log2(M) bits vs embedding = 32·d bits). 3. Pareto plot (total bytes, PAPE) 필수 산출물로 지정. 4. FedAvg가 R1b보다 통신 비용이 낮다면 논문에서 "통신 효율" 주장 완전 삭제 + contribution 을 "peak-accuracy under privacy constraints at comparable communication cost"로 재프레이밍.


6. D+7 타임라인 현실성 (Critical)

문제점 6-1. D+7 내 수행량 대비 workload 과다

근거: - D+1: y_vq=0 ablation + 기여 비율 측정 - D+2: R1b 3-seed (그러나 위 §4에 따르면 B0/B1/P1 모두 재실행 필요, 실제로는 5-seed × 7 model = 35 runs) - D+3: FedRep 구현 + Wasserstein heterogeneity - D+4: Ditto + FedProx (λ, μ sweep 포함) - D+5: 통신 비용 측정 코드 - D+6: 통합 / D+7: 초록 확정

왜 비현실적인가: - FedRep은 현 코드베이스에 skeleton 없음 (이전 답변에서 확인). 구현 + 디버깅 + multi-seed 실행이 D+3 AM 반일로 끝날 일이 아님. FedRep의 "shared encoder + personal head" 아키텍처를 VQ encoder와 동등 parameter budget으로 맞추는 것도 설계 작업. - Ditto의 dual-task training loop도 단순 FedAvg 수정 이상. λ sweep {0.1, 1.0} 각 3-seed = 6 runs × 20 rounds = … - 통신 비용 측정 코드 추가는 FedAvg/FeDPM 양쪽 코드에 침습적 변경 필요. - FedProx의 proximal term도 optimizer 수준 수정 필요. - 실제로는 D+14~D+21 수준의 workload를 D+7에 욱여넣음. 품질 저하 또는 누락 불가피.

reviewer 2 reject 멘트 예측:

"The 7-day plan schedules 3 new FL baselines (FedRep, Ditto, FedProx), 5-seed reproductions across 7+ models, heterogeneity measurement, communication cost instrumentation, and y_vq=0 ablation. Given that the baselines are not yet implemented in the codebase, this timeline is not credible. Either work will be incomplete or quality will be sacrificed."

심각도: Critical (프로젝트 관리 차원에서 실패 내재화)

권고: 1. 타임라인을 D+14 또는 D+21로 확장. 2. 또는 FL baseline을 2종(Ditto + FedProx)으로 축소하고 "FedRep은 future work" 명시. 3. 중간 gate를 엄격화: D+3 gate에서 FedRep 구현이 지연되면 즉시 Branch 재계획.

문제점 6-2. 현 코드베이스의 pFL skeleton 재확인 필요

권고: D+0 (지금) 에 engineer가 FedRep/Ditto/FedProx/FedBN 구현 부담을 codebase 레벨에서 평가해야 함. 방어 계획에 이 선행 check가 없다.


7. venue 적합성 주장 현실성 (High)

문제점 7-1. IEEE TSG 1순위 주장은 낙관적

근거: - 계획 §5: "1순위: IEEE TSG. 조건: BESS 시뮬레이션 연결 필수." - 그러나 BESS 시뮬레이션 연결은 D+1~D+7 계획에 없다. 이전 리뷰 §6에서 BESS 연결 미흡 지적을 했고, agent memory(v6_exp1_compute_metrics_bug.md)에서 "optimized_cost uses forecast not actual load" 버그도 있어 BESS 시뮬레이션 자체가 현재 신뢰 불가 상태. - 따라서 "D+7 후 TSG 제출"은 BESS 연결 없이 조건부 실패 상태에서의 submission이 된다.

왜 문제인가: - TSG는 에너지 시스템 operation perspective를 강하게 요구한다. "peak prediction 4.3%p 개선 → TOU 비용 얼마 감소" 증거 없이 TSG 제출 시 major revision 또는 reject. - Applied Energy도 동일하게 operational impact 증거 요구.

reviewer 2 reject 멘트 예측 (TSG):

"While the peak forecasting results are presented, the downstream ESS operational impact (TOU cost, demand charge reduction, BESS cycling) is not quantified. IEEE TSG requires operational validation of the proposed method under realistic BESS control scenarios."

심각도: High

권고: 1. D+8~D+14 BESS 시뮬레이션 phase 추가. 2. 또는 TSG/AE를 2순위로 낮추고 1순위를 NeurIPS/ICLR FL workshop 으로 변경. Workshop 수준에서는 보강 실험만으로 제출 가능. 3. "D+7에 TSG 제출 가능" 주장은 현 계획상 불가능하다고 선언하고 타임라인 수정.

문제점 7-2. "FL workshop 3순위" 가 실제로 최적 현실적 venue

근거: - NeurIPS FL workshop, FL-ICML 은 preliminary work를 수용. - 현재 보강 완료 수준이 top-tier full paper 기준은 충족 못 하지만 workshop은 충분. - 방어 계획이 3순위로 적어둔 것 자체가 솔직한 평가인데, 1, 2순위를 무리하게 TSG/AE로 잡음.

권고: Workshop 제출을 1순위로 재포지셔닝. 9~12개월 후 BESS 연결 + 추가 pFL baseline으로 full paper (TSG/AE) 확장.


8. Non-IID heterogeneity 측정 - 이전 Critical #3 미해결 확인 (High)

문제점 8-1. 측정은 계획되었으나 "broad" claim 방어엔 불충분

근거: - D+3 PM: "Wasserstein-1 distance matrix (5가구)"만 계획. - 이전 리뷰 §3-1 재실험 권고: "Dirichlet α ∈ {0.1, 0.5, 1.0, 10.0} partition 인위 구성" 이 계획에 반영되지 않음. - "5가구 Wasserstein matrix"만으로는 heterogeneity sensitivity curve가 없어 "FL이 이 setting에서 유의미함"을 주장하지 못함.

왜 문제인가: - Wasserstein matrix는 "얼마나 다른지" descriptive 수치만 제공. R1b가 heterogeneity에 robust한지(contribution 주장 가능)는 Dirichlet sweep이 있어야 입증 가능. - EC50 5가구는 표본 수 자체가 작아 cross-client heterogeneity 분포 해석의 외적 타당성이 낮다.

심각도: High

권고: 1. 5가구를 Dirichlet α ∈ {0.1, 0.5, 1.0, 10.0}로 재분할하여 heterogeneity 민감도 곡선 생성. 2. 또는 household 50 clients dataset을 활용한 natural heterogeneity 측정 추가. 3. 측정된 heterogeneity 값이 다른 FL 논문의 공개 setting과 비교 가능한지 정합성 check.


9. Rollback 조건 부재 - 프로세스 결함 재발 위험 (Critical)

문제점 9-1. 결과 기반 rollback 조건 명시 없음

근거: - §7 프로세스 gate check: "lab-leader가 확정", "exp-critic PASS 후" 정도의 서술적 기준만 있음. - 이전 Phase 1/2에서 critic의 Critical 지적 4~5개 미해결 상태로 "CONDITIONAL PASS"가 내려진 전례가 agent memory에 기록됨 (Phase2 KD Ablation Scaler Bug 등). - 이 방어 계획에도 구체적 rollback trigger가 없다: - "y_vq=0 차이 < 0.5%p면 C3 완전 삭제" - "FedRep이 R1b와 동등 성능(차이 < 1%p)이면 C4 'novel personalization' 주장 철회" - "통신 비용 FedAvg 대비 >2배면 초록 본문에서 efficiency 함의 완전 제거" - 이런 pre-registered decision rules가 없으면 D+7 gate에서 또 다시 "lab-leader 재량적 판단"이 되고, 초록 고정 압력에 눌려 약한 주장으로 pass될 가능성이 크다.

reviewer 2 reject 멘트 예측:

"The defense plan contains decision branches but no pre-registered thresholds for claim rejection. History in this project shows that critic-flagged Critical issues have been passed as CONDITIONAL without resolution. Without measurable rollback criteria tied to claims C3-C6, the current plan risks repeating that pattern."

심각도: Critical (프로세스 integrity)

권고: 1. 각 Claim별 rollback 조건 명문화: - C3: y_vq=0 차이 95% CI 0 포함 → C3 삭제 (Branch B/D 통합). - C4: FedRep PAPE가 R1b CI 내 → "per-household personalization" → "lightweight personalization head". - C5: 추가 baseline 중 1개라도 R1b 이김 → "best" → "competitive". - C6: 9.8% bootstrap CI가 [5%, 15%] 밖 → 수치 교체. - C7: 50M FM과 동일 train/eval condition이 아니면 "under our evaluation setup" 추가. 2. 이 조건들을 방어 계획 §2, §7에 테이블로 명시. 3. lab-leader의 재량적 override 금지 조항 추가 (과학적 integrity 보호).


10. 이전 리뷰의 Critical 4개 중 실질 해결 상태 점검

이전 Critical 지적 방어 계획 반영 실질 해결 여부
(1) FedAvg-only FedRep/Ditto/FedProx 추가 부분 해결 (SCAFFOLD/FedBN/pFedMe 여전히 누락)
(2) 통신 측정 0건 D+5에 bytes 측정 미해결 위장 (방법론 모호, Pareto plot 약속 없음)
(3) VQ 기여 미분리 y_vq=0 ablation 부분 해결 (Branch D 누락으로 "VQ 해롭다" 경우 미고려)
(4) pFL 부재 FedRep + Ditto 부분 해결 (FedBN/pFedMe 여전히 누락)

종합: 4개 Critical 중 실질 해결 0개, 부분 해결 3개, 미해결 위장 1개. reviewer 2 관점에서 이전 리뷰의 Critical 지적이 완전히 해결된 항목은 없다.


11. 추가 발견한 결함

11-1. 초록의 "50M-parameter foundation model" 비교 공정성 검증 없음 (High)

근거: - C7은 방어 계획에서 "현재 증거로 방어됨" 으로 처리되었으나, 이전 리뷰 §8-2에서 TimeMoE는 zero-shot 이고 R1b는 EC50 학습 모델임을 지적. - 서로 다른 학습/평가 조건의 비교를 "surpasses"로 쓰는 것은 reviewer가 즉각 반박하는 표준 불공정 비교.

권고: 1. TimeMoE를 EC50에 fine-tune한 버전 + R1b 비교 실행. 2. 또는 초록에 "surpasses" 대신 "matches or exceeds … under on-device parameter budget" 같은 수식어 추가. 3. 초록이 변경 불가라면 본문에 반드시 "This comparison uses TimeMoE in zero-shot and our model after FL training" 명시.

11-2. Per-household fairness 미측정 (Medium)

근거: - 방어 계획 §4 D+2 PM: "Per-client PAPE 분포 박스플롯" 기존 결과 재분석만 언급. - 5가구 중 1~2가구에서 R1b가 B0보다 나쁠 가능성이 있고, FL personalization 주장은 per-household fairness 개선도 검증해야 한다.

권고: Jain's fairness index 또는 per-household rank 계산. 모든 가구에서 R1b가 이기는지, 평균만 이기는지 구분.

11-3. 50 clients 결과 방어 계획 누락 (High)

근거: - 이전 리뷰 §5, §7 에서 50 clients 결과(PAPE 47.22%)의 해석 문제 지적. - 방어 계획 §4 어디에도 50 clients 재실험 또는 해석 수정이 없음. - 초록에서 "federated learning … collaborative modeling without centralized data collection"은 scalability를 암시. 50 clients에서 성능 악화가 있는 상태는 초록의 묵시 claim을 반박.

권고: 1. 50 clients 결과를 본문에 명시적 한계로 기재. 2. 또는 50 clients lr/γ/δ sweep 재실험을 D+8~D+14에 추가.

11-4. MSE 20% 악화 BESS 영향 미연결 (High)

근거: - 이전 리뷰 §6-1 지적: MSE 20% 악화의 BESS 비용 영향 미검증. - 방어 계획에 BESS 시뮬레이션이 전무. - v6_exp1_compute_metrics_bug.md 버그도 미해결 상태.

권고: D+8~D+14 phase 추가 또는 초록에서 "best peak accuracy" 주장 뒤에 "(no aggregate MSE improvement)" 같은 투명한 trade-off disclosure 본문 삽입.


12. 최종 판정 및 venue 재평가

12-1. Top-tier FL venue (ICML/NeurIPS/ICLR/AISTATS): REJECT

  • Critical 9개 (M-1, 1-1, 1-2, 1-3, 2-1, 4-1, 6-1, 9-1, 그리고 10의 미해결 4개 중 2개) 상태.
  • 초록 고정 + post-hoc rationalization 구조는 FL 커뮤니티 리뷰어가 가장 싫어하는 패턴.

12-2. 2nd-tier (UAI/AAAI/IJCAI/TNNLS/TMLR): REJECT (D+7 상태)

  • Major revision 후 재심 가능. D+14~D+21 수준 보강이면 TMLR 은 가능성 있음.

12-3. IEEE TSG / Applied Energy: MAJOR REVISION 가능성 있음, 현 D+7 계획으로는 REJECT

  • 조건: BESS 시뮬레이션 연결 완성 + 에너지 특화 FL baseline 1종 추가 + 50 clients 한계 투명화.
  • 현재 방어 계획 D+7로는 TSG/AE 직접 제출 불가. 계획 §5의 "1순위 TSG" 주장은 낙관적.

12-4. NeurIPS FL Workshop / FL-ICML / ICML Frontiers FL: Conditional PASS

  • 현 계획 D+7 완료 + 통신 비용 Pareto plot + y_vq=0 완전 분기(D 포함) + 단일 5-seed 실행이면 제출 가능.
  • "Preliminary peak-aware FL for household forecasting" 프레이밍이 가장 안전.

12-5. KIIE (2026-04-30 마감): PASS (축소된 claim)

  • 에너지 도메인 국내지. contribution scope을 "peak-weighted loss + FL training for household forecasting"으로 축소하면 제출 가능.
  • 단, 초록의 top-tier 스타일 문구 톤다운 권고.

reviewer 2 최종 권고 venue: NeurIPS FL Workshop 1순위, KIIE 2순위. TSG/AE는 D+21 BESS 보강 이후로 연기.


13. exp-expert / lab-leader 전달사항 (필수 행동 항목)

즉시 (D+0 ~ D+1)

  • Branch D 명시 (y_vq=0이 R1b보다 나은 경우 claim C3 완전 삭제 분기).
  • Rollback 조건 명문화: Claim C3~C7 각각에 측정 기반 rollback trigger 기재.
  • 현 codebase의 pFL skeleton 평가: FedRep/Ditto/FedProx/FedBN 구현 부담 실측. 미구현이면 타임라인 즉시 연장.

통계적 엄밀성

  • Seed를 3 → 5 이상 확장 (seed 42/123/456/789/2024).
  • B0, B1, P1, R1b, 모든 FL baseline을 동일 seed 세트로 재실행. 현재 계획은 R1b만 3-seed로 좁혀두어 paired test 불가.
  • Paired Wilcoxon signed-rank test + Bonferroni correction 명시.
  • Bootstrap 95% CI for 9.8% reduction. CI가 [5%, 15%] 밖이면 초록 수치 교체.

통신 비용

  • Upload/download bytes per round per client (각각 구분).
  • Total bytes to convergence 표.
  • Pareto plot (total bytes vs PAPE) 필수.
  • FedAvg 대비 R1b가 >2배 통신량이면 본문 "efficiency" 함의 완전 제거.

Baseline 추가

  • FedBN 또는 SCAFFOLD 최소 1종 추가 (총 5~6종 FL baseline).
  • 에너지 특화 FL 1종 (FedForecast 등, 제출지가 에너지 저널이면 필수).

Heterogeneity

  • Dirichlet α ∈ {0.1, 0.5, 1.0, 10.0} sweep (5가구 기준).
  • 50 clients 데이터에 대한 natural heterogeneity 측정.

BESS 연결 (타임라인 확장 필수)

  • D+8~D+14 BESS 시뮬레이션 phase 추가.
  • v6_exp1_compute_metrics_bug.md 버그 선결.
  • MSE 20% 악화의 TOU 비용 영향 정량화.

초록 실질 수정 수용

  • Branch D 결과 발생 시 "(ii) a dual-path architecture …" 전면 재작성.
  • C7 "surpasses" → "matches or exceeds under on-device budget" (공정성 수식).
  • "broad set of baselines"을 "across X classical and Y personalized FL baselines"로 수치화.

프로세스 integrity

  • lab-leader의 gate check 재량적 override 금지.
  • critic의 Critical 지적 미해결 상태로 CONDITIONAL PASS 금지. 본 리뷰의 Critical 9개가 실질 해결될 때까지 다음 phase 진행 불가.

부록 A: Branch D (누락된 분기) 설계안

Branch D: y_vq=0이 R1b보다 유의미하게 나음 (PAPE 차이 > 2%p in opposite direction)

판정: VQ codebook이 성능에 해롭다. R1b의 결과는 DLinear의 효과를 VQ noise가 덜 손상시킨 상태.

초록 처리: C3, C4 중 VQ 관련 부분 완전 재작성.
  기존: "(ii) a dual-path architecture that combines a shared vector-quantized (VQ) codebook
         for federated pattern exchange with a lightweight DLinear residual for per-household personalization"
  수정: "(ii) a lightweight DLinear backbone trained under FedAvg with local personalization"

논문 기여 재정의:
- contribution 1: peak-weighted SmoothL1 loss (유지)
- contribution 2: per-household DLinear under FedAvg (novelty 축소)
- FL 기여: 없음 (훈련 framework로만 사용)

venue 영향: top-tier FL 제출 불가. 에너지 도메인 저널에서 "peak-aware forecasting with FL training" 포지셔닝으로 제출.

부록 B: 이 리뷰의 한계

  • 본 리뷰는 방어 계획 문서 자체에 대한 비판. 실제 D+1~D+7 실험 결과가 이 비판 일부를 반박할 가능성은 있다.
  • 그러나 방어 계획의 구조적 결함(Branch D 누락, rollback 조건 부재, 초록 고정 전제)은 실험 결과와 무관하게 유효.
  • venue 판정은 현 계획 D+7 완료 기준. D+14~D+21 보강 시 TSG/AE 가능성 재평가.

최종 판정 (Reviewer 2 stance):

현 방어 계획은 이전 리뷰의 Critical 4개 중 실질 해결 0개. 이전 지적이 "부분 반영" 되었으나, 해결의 핵심(Branch D, rollback 조건, 5-seed 통계, Pareto plot, BESS 연결)은 여전히 누락. 초록 고정 + post-hoc rationalization 구조는 과학적 방법론 관점에서 원천 결함이며, reviewer 2는 이를 즉각 감지한다.

현실적 도달 가능 venue: NeurIPS FL Workshop / FL-ICML (D+7 완료 시 Conditional PASS). IEEE TSG / Applied Energy는 D+21 BESS 보강 이후 재평가. Top-tier FL full paper는 도달 불가.

권고: 초록 고정을 풀거나, workshop/KIIE를 1차 목표로 재포지셔닝하고 TSG/AE는 연기. D+7 목표 실행 전 반드시 Branch D 추가 및 rollback 조건 명문화.