콘텐츠로 이동

Source: report/version6/lab-leader/v6_0418_fl_baseline_critique.md

FL 베이스라인 평가 비판 및 v7 방향 제안

변경 이력

버전 날짜 변경 사항
v1 2026-04-18 최초 작성 (6가지 비판, 선택지 A/B/C)
v2 2026-04-18 exp-critic 적대적 리뷰 반영. 4개 Critical 항목 추가, 프로세스 결함 섹션 신설, 선택지 C(절충안) 폐기 및 단일 권고로 수렴. y_vq=0 ablation, FedRep 비교 필요성, 통신 비용 0건 측정 등 원본 누락 사항 통합.

0. 리뷰 통합 방법론 메모

exp-critic은 Reviewer 2 stance로 적대적 리뷰를 수행했다. 본 v2는 critic의 모든 지적을 무비판적으로 수용하지 않았다. 아래 기준으로 취사선택했다:

  • 수용: 코드 레벨 실증이나 수치 확인이 가능한 지적 (통신 측정 0건, y_vq=0 ablation 누락, Phase 1/2 critic 미해결 사항 CONDITIONAL PASS 승격)
  • 수용: 구조적 동일성 문제 (FedRep vs R1b 이중 경로의 본질적 유사성)
  • 조건부 수용: 50 clients 해석 관련 대안 가설 (lr/HP 미튜닝 가능성은 타당하나, 재실험 없이 결론을 뒤집기에는 불충분)
  • 미수용: critic의 "top-tier REJECT" 판정 자체 — 본 보고서는 논문 venue 판단이 아닌 v7 방향 결정이 목적이므로, venue 적합성 보다 "무엇을 해야 하는가"에 집중

50 clients 실험의 negative 결과를 "구조적 한계"로 단정한 것은 critic의 지적대로 HP 미튜닝 가능성이 있으나, 이를 재실험하는 것은 v7 방향에 따라 우선순위가 결정된다. 현 시점에서는 y_vq=0 ablation이 더 근본적 질문에 답하므로 이를 먼저 집행한다.


1. 핵심 진단: "FL 논문"이 되려면 무엇이 부족한가

현재 Exp6 보고서는 "13개 모델 비교"를 강점으로 내세우지만, FL 논문으로 제출하기 위한 최소 요건이 충족되지 않는다. v1의 6가지 비판에 exp-critic 리뷰를 통합하여, 비판 항목은 총 9가지로 확장되며 심각도를 병기한다.


2. 비판 항목 (심각도 포함)

2-1. FL 알고리즘 베이스라인이 FedAvg 단 하나 [Critical]

현황: FL 계열 비교는 B1(FedAvg+DLinear) 대 FeDPM 변형뿐이다.

문제: FedAvg는 2017년 알고리즘이다. 현대 FL 논문의 최소 비교 대상: - FedProx (heterogeneity 완화, MLSys'20) - SCAFFOLD (client drift 보정, ICML'20) - Ditto (personalized FL, ICML'21) - FedBN / FedRep (개인화 경로 분리, ICLR/ICML'21)

exp-critic 추가 지적: FeDPM은 codebook 교환이라는 비표준 FL mechanism이다. 비표준 FL이 standard FedAvg 하나만 이기는 것은 당연한 수준의 주장이며, VQ 관련 선행 FL 연구(FedKD류, Heterogeneous Prototype FL)와의 비교 없이는 기여라 부를 수 없다.

Reviewer 2 예측 거절 사유: "The only FL baseline is vanilla FedAvg. The personalization claim is unsupported without comparison against pFedMe, Ditto, FedBN, FedRep."


2-2. R1b 이중 경로 = FedRep 특수형: 구조적 동일성 문제 [Critical] (원본 누락)

현황: v1 보고서는 "이중 경로 아키텍처(글로벌 VQ + 로컬 DLinear)"를 독자적 contribution으로 서술했다.

문제 (exp-critic 신규 지적): "global VQ encoder + local DLinear head" 구조는 FedRep(Collins et al., ICML 2021)의 "shared representation + personal head" 패턴의 특수형이다. FedRep과 직접 비교가 없으면 "새로운 개인화 경로"가 아닌 "FedRep with DLinear personal head"로 리뷰어가 즉시 판단한다. 이는 v1에서 완전히 누락된 치명적 결함이다.

재실험 필수: FedRep(shared encoder = VQ encoder+PMR+decoder, personal head = DLinear)을 동일 파라미터 예산으로 구현하여 R1b와 비교. 결과에 따라 "이중 경로" contribution 존속 여부 결정.


2-3. VQ path ablation(y_vq=0) 미실시: FL 기여 정량화 불가 [Critical] (원본 누락)

현황: codebook util 3~6% 상태임에도 "VQ+DLinear 이중 경로"를 기여로 주장한다.

문제 (exp-critic 핵심 지적): codebook util이 3%라는 것은 M=64 중 2~4개만 실제 사용됨을 뜻한다. 이 상태에서 VQ path는 near-constant(거의 상수)로 수축했을 가능성이 높다. R1b의 성능이 DLinear residual 단독 공헌일 가능성을 배제하지 않은 채 "이중 경로"로 포장하는 것은 non-substantiated claim이다.

필수 ablation: R1b에서 y_vq := 0으로 고정(VQ path 출력을 0으로 강제)한 모델 실행. 결과 해석: - y_vq=0 모델과 R1b가 PAPE 유사 → "FL 기여 측정값 0" 확정. "이중 경로" 표현 즉시 철회. - y_vq=0 모델이 유의미하게 나쁨 → VQ 기여 입증, 단 codebook 정상화(util 향상) 필요.

이 ablation 없이는 v7 방향과 무관하게 논문 기여 주장 자체가 성립하지 않는다.


2-4. 통신 비용 측정 0건: "통신 효율" 주장은 측정 없는 주장 [Critical] (원본 누락)

현황: 보고서는 "VQ codebook의 역할은 FL 통신 효율"이라 서술했다.

문제 (exp-critic 실증): 코드 검색 결과(experiments/distillation/communication|bytes|bandwidth|payload 패턴) 0건 매치. 실험 스크립트에 통신 비용 측정 자체가 없다.

더 심각한 역설: FedAvg(DLinear ~4.6K params)는 round당 전송량이 극히 작다. FeDPM은 encoder+PMR+decoder(~180K) + codebook을 공유한다. 즉 FeDPM이 통신량을 줄인 것이 아니라 오히려 크게 늘렸을 가능성이 있다. "통신 효율" 주장은 삭제하거나 측정으로 검증해야 한다.

Reviewer 2 예측 거절 사유: "The claim that the VQ codebook serves a 'communication efficiency' role is entirely unsupported by measurement. FedAvg with DLinear transmits only ~4.6K parameters while FeDPM transmits ~180K+codebook — the method is likely more communication-expensive."


2-5. FeDPM의 FL 측면 기여도 미측정 [Critical]

현황: VQ codebook의 FL 효과가 통신 비용 측면에서 전혀 측정되지 않았다.

구체 결함: - bytes/round, total bytes transmitted 지표 없음 - 수렴 라운드 비교 없음: FedAvg가 30 rounds에 수렴한다면 FeDPM은 몇 rounds인가? - Codebook util 3~6%: 64개 코드 중 3~4개만 실제 사용. 이 상태에서 "코드북 교환"의 통신 효율이 FedAvg보다 낫다는 근거 없음.


2-6. Non-IID 가정 검증 부재 [High]

현황: EC50 에너지 가구가 얼마나 Non-IID인지 전혀 측정되지 않았다.

문제: Heterogeneity 지표 없음(EMD, KL divergence, Wasserstein). 동일 도메인에서 codebook collapse(util 3~6%)가 발생한 것은 데이터가 사실상 IID에 가깝다는 증거일 수 있다. 이 경우 FL 자체의 필요성이 약해진다.

exp-critic 추가 지적: "50 clients 스케일 효과 없음" 결론에 대해 HP 미튜닝(lr, local epochs, γ, δ가 50 clients에 재조정 안 됨), client sampling 부재(전체 참여가 현실적 FL 세팅인지 불명) 등 대안 가설이 미배제 상태. 단, 이 재실험의 우선순위는 y_vq=0 ablation 결과에 종속된다.


2-7. 공정성(Fairness) 및 worst-case 성능 미평가 [High]

현황: PAPE 보고는 평균값 위주. 가구별 분산과 worst-case client 성능이 없다.

문제: FL 논문에서 평균 성능만 보고하는 것은 표준 이하다. "평균 PAPE 38.40%"는 일부 가구에서 60%+ 오류를 숨기고 있을 수 있다. Per-client PAPE 분포 박스플롯이 최소 요건이다.


2-8. 통신 라운드 수렴 곡선 부재 [High]

현황: 30 rounds 학습 결과만 보고. 라운드별 수렴 곡선이 없다.

문제: FL 논문에서 수렴 곡선은 필수 시각화이다. FeDPM이 FedAvg보다 빠르게 수렴하는지 알 수 없으며, Early stopping 기준이 자의적으로 보인다.


2-9. R1b 단일 seed 결과로 "전체 최선" 주장 [High]

현황: P1은 3-seed 반복 실시(Std=0.67%p). R1b는 seed=42 단일 실행.

문제 (exp-critic): P1의 seed 분산이 ±0.67%p라면 R1b의 95% CI는 대략 [37.1%, 39.7%]로 추정된다. NHITS PAPE 39.73%는 이 CI 상단에 근접한다. "R1b 최선" 주장은 seed 운의 가능성을 배제하지 못한다. 보고서 §6에서 저자 자신이 "3-seed 재현을 미래 작업"으로 언급한 것은 통계적 신뢰성 부족의 자인이다.


3. 프로세스 결함 섹션 (신설)

exp-critic은 부록 A에서 기존 Phase 1/2 critic 지적들이 해결되지 않은 채 "CONDITIONAL PASS"로 승격된 거버넌스 문제를 지적했다. 이는 수용한다.

Phase 1/2 critic 지적 해결 여부 최종 보고서 처리
C1: encoder 구조 결함 → codebook util 저하 미해결 util 3~6%로 그대로 승계
C4: B1 vs V1 federation 규모 불일치 부분 해결 B1 50 clients 재실행 여부 불명
M1: B1=MSE, V1/P1/R1b=SmoothL1 loss 불일치 미해결 "MSE 등가 검증"으로 우회 처리
Phase 2: B0/B1 미초월 문제 미해결 R1b MSE에서 더 악화
Phase 2: R1b 단일 seed 문제 미해결 여전히 단일 seed

진단: 5개 지적 중 1개만 부분 해결, 나머지 4개는 미해결 상태로 최종 보고서에 유입됐다. 이는 exp-critic 리뷰 → exp-expert 수정 → 재검토의 루프가 정상 작동하지 않았음을 의미한다. 이 구조적 문제는 v7에서 재발 방지 프로세스가 필요하다.

재발 방지: v7 실험 시작 전 "Phase N critic 지적 해결 체크리스트"를 exp-expert가 명시적으로 작성하고 lab-leader가 gate check 역할을 수행한다.


4. 종합 진단: FL Contribution 가능성 평가

필요 조건 현재 상태 심각도 충족 여부
현대 FL 알고리즘과 비교 FedAvg만 비교 Critical FAIL
FL 기여 분리 ablation (y_vq=0) 미실시 Critical FAIL
"통신 효율" 측정 측정 코드 0건 Critical FAIL
FedRep 구조 동일성 검토 미비교 Critical FAIL
Non-IID 검증 측정 없음 High FAIL
R1b 통계 신뢰성 단일 seed High FAIL
클라이언트 공정성 평가 평균만 보고 High PARTIAL
수렴 곡선 없음 High FAIL
Peak 예측 효과 (PAPE) R1b 38.40%, 전체 1위 - PASS
Loss 설계 기여 MSE 등가 검증 포함 - PASS

결론: Critical FAIL 4개, High FAIL 3개. 현재 결과는 "FL 논문"이 아닌 "Peak Loss 설계 + 개인화 구조 논문"으로 자연스럽게 포지셔닝된다.


5. 최종 권고 (단일 결론)

선택지 C(절충안)를 폐기한다. 선택지 B(Peak Loss 설계 논문)로 전환한다.

이유

선택지 C는 v1에서 "현실적 절충"으로 제안했으나, exp-critic의 적대적 리뷰를 통합한 후 이 판단이 FL 논문의 근본 결함을 표면적으로 봉합하는 전략임이 명확해졌다. 특히:

  1. y_vq=0 ablation이 FL 기여를 0으로 확정할 경우: Ditto를 추가해도 FL contribution 자체가 성립하지 않는다. 이 경우 선택지 C는 실험 자원 낭비에 그친다.
  2. FedRep 동일 구조 문제: R1b가 FedRep의 특수형이라면, "이중 경로 아키텍처"라는 FL contribution 주장이 붕괴한다. 이 상황에서 "Ditto 1개 추가"는 리뷰어의 핵심 비판을 회피하지 못한다.
  3. 통신 비용 측정 0건: "통신 효율"이라는 FL 기여 주장은 현 상태에서 논문에 쓸 수 없다. 이를 복구하려면 선택지 A 수준의 추가 작업이 필요하다.

선택지 B의 근거: - 현재 데이터로 즉시 논문 작성 가능 - "Peak-Weighted Loss 설계 + DLinear 이중 경로"는 FL 비판에 노출되지 않고, 에너지 저널(Applied Energy, IEEE TSG)에서 독립적으로 기여를 인정받을 수 있다 - FL은 "학습 프로토콜(데이터 사일로 가정 하의 학습 셋팅)"로 위치하며, "FeDPM이 FL 방법론 기여"라는 주장을 삭제한다 - BESS 시뮬레이션 연결로 실용적 가치를 보강하면 Applied Energy 게재 가능성이 높다

단, 선택지 B 전환 전에 y_vq=0 ablation을 D+1에 먼저 집행한다. 이 결과가 R1b와 유사하면 "DLinear 단독 경로"가 사실이며, 선택지 B의 contribution 서술을 "Peak-Weighted Loss + DLinear forecasting"으로 정직하게 확정한다. VQ를 contribution에서 제거한다. 만약 y_vq=0이 유의미하게 나쁘면 VQ는 regularizer 역할로 재포지셔닝 가능하다.


6. 실행 계획 (v2 갱신)

일자 작업 담당 산출물 우선도
D+1 AM y_vq=0 ablation: R1b에서 VQ path 출력 강제 0, DLinear 단독 PAPE/MSE 측정 engineer + exp-expert 비교 테이블, VQ 기여 비율 P0
D+1 PM R1b 3-seed 반복 (seed 42/123/456): PAPE CI 계산, P1/B0 대비 paired t-test exp-expert seed 분산 테이블, 유의성 검증 P0
D+2 AM Per-client PAPE 분포 (기존 결과 재분석): 박스플롯, worst 10% client 테이블 exp-expert fairness 분석 figure P1
D+2 PM 수렴 곡선 재생성 (기존 MLflow 로그에서 rounds vs PAPE/MSE 추출) exp-expert 수렴 곡선 figure P1
D+2 PM 통신 비용 로깅 추가: per-round bytes (torch.numel() × element_size()), FedAvg vs FeDPM 비교 engineer bytes/round 비교 표 P1
D+3 AM FedRep baseline 구현: 동일 파라미터 예산, DLinear personal head engineer experiments/federated/v7_0421_fedrep_baseline.py P1
D+3 PM Non-IID 지표 계산: 5가구/50가구 Wasserstein-1 거리 매트릭스 exp-expert heterogeneity 테이블 P1
D+3 PM v7 방향 확정: y_vq=0 결과 기반 contribution 서술 확정 lab-leader 방향 확정 memo

Go/No-go 기준 (D+1 판정)

y_vq=0 결과 기반 분기: - y_vq=0 ≈ R1b (PAPE 차이 < 1%p) → "FL 기여 = 0" 확정. 선택지 B 전환, contribution = "Peak-Weighted Loss + DLinear". VQ 제거. - y_vq=0 >> R1b (PAPE 차이 > 3%p) → VQ regularizer 기여 존재. 선택지 B에서 "DLinear+VQ regularization"으로 포지셔닝. FedRep 비교로 차별성 검증. - y_vq=0 < R1b but 1~3%p 범위 → VQ 기여 애매. FedRep 비교 결과와 종합 판단.


7. 논문 투고 타겟 (선택지 B 기준)

  • Applied Energy (IF 11.2): 에너지 시스템 + 예측 방법론. BESS 시뮬레이션 연결 시 적합도 최고.
  • Energy and Buildings: 건물 에너지 + 개인화 예측.
  • IEEE Transactions on Smart Grid: FL 설정 + 에너지 관리. "FL contribution"이 아닌 "FL setting"으로 프레이밍 시 게재 가능.

FL 방법론 특화 venue(FL@ICML, ICLR)는 선택지 B에서 타겟에서 제외한다.


8. 논문 프레이밍 수정 체크리스트

아래 서술을 v7 논문 초안에서 반드시 수정한다:

  • "FeDPM 동일 도메인 부적합" → "본 간소화 구현의 FeDPM이 동일 도메인에서 codebook을 활용하지 못함. 원본 구조 faithful 포팅 후 재검증 필요" (Phase 1 critic 지적 반영)
  • "VQ codebook의 FL 통신 효율" → 통신 비용 측정 결과 삽입 또는 주장 삭제
  • "VQ+DLinear 이중 경로" → y_vq=0 결과에 따라 "DLinear dominant, VQ as weak regularizer" 또는 "DLinear 단경로"로 수정
  • "전체 최선 PAPE 38.40%" → "R1b PAPE 38.40% (seed=42 단일 실행, 95% CI [37.1%, 39.7%] 추정)" 또는 3-seed 완료 후 CI 기재
  • BESS 시뮬레이션 비용 계산 추가 (MSE 20% 악화의 경제적 영향 정량화)

이 보고서는 v1 판단과 exp-critic 적대적 리뷰를 통합하여 단일 방향으로 수렴한 v7 착수 전 의사결정 문서이다. 핵심 분기는 D+1 y_vq=0 ablation 결과에 종속된다.