[2026-04-19 전환 노트] 이 문서(v3)는 보존됨. 후속 계획은 todos/track-e_vq_codebook_research.md로 발전됨. v3의 통계 요건(5-seed, Wilcoxon, bootstrap CI), Branch A/B/C/D 구조, Claim rollback 조건 테이블은 track-e에 전면 계승됨. 핵심 변경: Branch D의 의미가 "VQ 포기"에서 "Vanilla VQ 한계 입증 + 개선 기법 필요성 정당화"로 재프레임됨. track-e는 v3보다 공격적: VQ 개선 기법(EMA, RESET, K-means init, β sweep 등) 실험을 Tier 1 핵심으로 격상.

초록 방어 계획 v3: Critic 전면 반영 + 실행 가능 단일 플랜¶

[v3 변경 이력] v1 대비 diff¶

항목	v1	v3	변경 이유
Branch 설계	A/B/C 3분기 (Branch D 누락)	A/B/C/D 4분기 완전 대칭	HARKing 구조 비판 수용. 과학적 falsifiability 확보
Seed 수	R1b 3-seed 재실행만	전 baseline 5-seed 동일 seed set 재실행	통계적 paired 분석을 위한 매칭 필수
통계 방법론	"paired t-test 언급" 수준	Paired Wilcoxon + bootstrap CI(1000) + Bonferroni 명시	정규성 가정 배제, 다중 비교 보정
Claim별 rollback	없음	C1~C7 rollback 조건 테이블 신설	pre-registered decision rule로 재량 override 금지
타임라인	D+7 단일	Tier 1(D+7) / KIIE(D+11) / Tier 2(D+21) 3단계	D+7 현실성 없음 비판 수용 + 마감 대응
FL baseline	FedRep/Ditto/FedProx	+FedBN 또는 SCAFFOLD 1종, 에너지특화 1종	"broad set" claim 방어 강화
venue 순위	TSG 1순위	NeurIPS FL Workshop 1순위, TSG는 Tier 2 이후	BESS 연결 없이 TSG 제출 불가 판정
Heterogeneity	Wasserstein-1 측정만	Tier 1 포함 여부 명시 (Tier 2로 이동)	5가구 power 부족 비판 수용. Tier 1 범위 집중
"alignment" rewording	Branch B에서 채택	증거 없으면 채택 불가, 삭제 우선	util <10% 상태에서 alignment 방어 불가 수용

미반영 항목 및 사유: - C7 "surpasses" 문구 수정: 초록 확정 전제 하에 본문에 "zero-shot vs FL-trained 비교" 주석을 추가하는 것으로 대체. 단어 수준 수정도 사용자가 금지한 취지를 훼손할 위험. 본문 disclosure로 충분히 방어 가능. - 50 clients 재실험: Tier 2에 배치. Tier 1 범위를 overload하지 않기 위해. 본문에 명시적 한계로 기재하는 것으로 Tier 1 내 처리. - Ditto β sweep + FedProx μ sweep 전체: Tier 1에서는 best hyperparameter 단일값만 실행. sweep은 Tier 2. workload 현실화 판단.

0. 전제: 방향 재확정¶

초록 (변경 불가 확정)¶

Accurate peak load forecasting is critical to power system operation, but household-level forecasting remains difficult due to load variability. Since consumption data are privacy-sensitive, federated learning (FL) offers a natural framework for collaborative modeling without centralized data collection. We propose a peak-aware FL framework with two components: (i) a peak-weighted SmoothL1 loss that emphasizes peak-time samples during training, and (ii) a dual-path architecture that combines a shared vector-quantized (VQ) codebook for federated pattern exchange with a lightweight DLinear residual for per-household personalization. We evaluate models using PAPE (Peak Absolute Percentage Error) and HR (Hit Rate), metrics tailored to peak-region accuracy. Across a broad set of baselines, the proposed model achieves the best peak accuracy, reducing PAPE by 9.8% relative to local-only training. Notably, our 4.6K-parameter model surpasses a 50M-parameter foundation model, showing that loss design and personalization outweigh model scale for household peak forecasting under privacy constraints.

수정 불가 원칙: 초록 전체 문장 구조 고정. Branch D 발동 시에만 "(ii) a dual-path architecture …" 구절을 최소 재구성하는 것을 허용 (단어 수준 수정 허용 범위에 포함).

과학적 정직성 선언¶

v3는 post-hoc rationalization 구조를 탈피한다. Branch 설계는 결과를 사전에 정의된 규칙에 따라 처리하며, lab-leader의 재량적 override는 금지된다. y_vq=0 결과가 어떤 방향이든 pre-registered rollback 조건에 따라 처리한다.

1. Claim별 방어 가능성 및 rollback 조건 테이블¶

#	Claim 요약	현재 증거	통과 기준 (pre-registered)	Rollback 시 초록 수정안
C1	"FL offers a natural framework … privacy-sensitive"	서술적 동기	서술 방어. 실험 불필요	없음 (삭제 조건 없음)
C2	"peak-weighted SmoothL1 loss"	P1 vs B0/B1/V1 비교	P1 PAPE < B1 PAPE (5-seed Wilcoxon p<0.05)	"peak-weighted" → "asymmetrically weighted" (최소 수정. 효과는 유지하되 peak emphasis 약화)
C3	"VQ codebook for federated pattern exchange"	codebook util 3~6%, R1b single seed	y_vq=0 vs R1b PAPE 차이의 bootstrap 95% CI가 0 미포함 (Branch A 조건)	[A] 유지 / [B] "representation alignment"(증거 필요) / [D] "(ii)" 구절 전면 재구성 — 아래 Branch 상세 참조
C4	"DLinear residual for per-household personalization"	FedRep 비교 없음	R1b PAPE < FedRep PAPE (5-seed Wilcoxon p<0.05) 또는 R1b PAPE가 FedRep의 95% CI 하한 미달	"per-household personalization" → "local adaptation head" (novel personalization 주장 철회, 기능은 유지)
C5	"broad set of baselines … best peak accuracy"	FedAvg 단 1종	FL baseline ≥ 5종 추가 완료 + R1b가 그 중 최소 3종 대비 Wilcoxon p<0.05로 우위	"best peak accuracy" → "competitive peak accuracy" (최상위 주장 철회)
C6	"reducing PAPE by 9.8% relative to local-only"	B0(42.55%)→R1b(38.40%), single seed	bootstrap 95% CI (1000 resamples)의 lower bound > 5%	CI lower bound ≤ 5%이면 "9.8%" → 실제 CI 중앙값 % 수치로 교체. CI가 0 포함이면 "significant reduction (p<0.05)" 으로 수정
C7	"4.6K-param model surpasses 50M-param FM"	TimeMoE 50M zero-shot vs R1b FL-trained	비교 조건 불균등 공개 명시 (본문 disclosure). 초록 수정 없음	본문에 "TimeMoE evaluated in zero-shot; our model evaluated after FL training on EC50" 문장 추가로 방어. 비교 자체를 철회하지 않음

프로세스 규칙: - 각 rollback 조건은 실험 결과 확인 즉시 자동 적용된다. - lab-leader가 "결과가 아쉽지만 claim 유지"를 선택하는 override는 금지된다. - critic이 이미 Critical로 지적한 항목은 CONDITIONAL PASS 없이 실질 해결 후 통과.

2. Branch A/B/C/D 상세 정의 (y_vq=0 ablation 결과 분기)¶

Branch A: R1b > y_vq=0 유의미하게 (PAPE 차이 > 2%p, bootstrap CI 0 미포함)¶

판정: VQ codebook 기여 확인됨. C3 claim 유지.

초록 처리: 변경 없음. "shared VQ codebook for federated pattern exchange" 유지.

논문 전략: - 섹션 구성: §4.2 Ablation에 "y_vq=0 vs R1b" 비교 테이블 + PAPE reduction 수치 명시 - codebook util 3~6%를 투명하게 기재: "Despite low utilization (6%), VQ codebook contributes X%p PAPE reduction" - FedRep 비교로 VQ shared codebook vs FedRep shared encoder의 차별성 논증 - 기여 서술: "Peak-aware FL framework with VQ codebook for federated pattern sharing + DLinear for personalization"

venue 적합성: Workshop 제출 가능. Tier 2에서 TSG/AE 논문으로 확장.

Branch B: y_vq=0 ≈ R1b (PAPE 차이 < 1%p, CI 0 포함)¶

판정: VQ 기여 통계적으로 0. "federated pattern exchange" 유지 불가.

초록 처리 (둘 중 하나 선택, 우선순위 순):

옵션 B-1 (권고): C3 완전 삭제 + "(ii)" 구절 재구성

기존: "(ii) a dual-path architecture that combines a shared vector-quantized (VQ) codebook
       for federated pattern exchange with a lightweight DLinear residual for per-household personalization"
수정: "(ii) a lightweight DLinear architecture with local personalization heads trained
       under peak-weighted federated objectives"

이유: util <10% + 기여 0인 상태에서 어떤 framing도 reviewer에게 통하지 않음. 정직한 축소가 최선.

옵션 B-2 (증거 있을 때만 허용): "alignment" rewording

수정: "a shared vector-quantized (VQ) codebook for federated representation alignment"

조건: 반드시 다음 증거가 존재해야 한다: - cross-client codebook usage overlap 분석 (동일 entry가 복수 client에서 사용됨을 확인) - loss variance across rounds (R1b < y_vq=0, VQ가 수렴 안정화 역할 확인) - gradient divergence 감소 지표 이 증거 없이 옵션 B-2 채택 불가. 증거 없으면 옵션 B-1 자동 적용.

논문 전략: - contribution 1: peak-weighted SmoothL1 loss (유지) - contribution 2: per-household DLinear (novelty 축소, FL training framework로 재포지셔닝) - venue: Workshop 또는 KIIE. Top-tier FL 제출 포기. - 기여 서술: "Peak-aware FL training framework with lightweight DLinear and personalized local heads"

Branch C: 차이 1~2%p (회색지대)¶

판정 기준 (사전 정의): 분기 기준을 실험 후 협상하지 않는다.

C → A 분기: bootstrap 95% CI lower bound > 0 (즉 "R1b > y_vq=0" 방향으로 유의)
C → B 분기: bootstrap 95% CI가 0 포함

추가로 Paired Wilcoxon p < 0.05이면 방향에 따라 A 또는 D로 분류. "결과가 아쉽다"는 이유로 Branch C를 Branch A로 해석하는 것은 금지.

이 분기가 결국 A 또는 B 중 하나로 수렴하므로 별도 논문 전략 없음.

Branch D: y_vq=0 > R1b 유의미하게 (PAPE 차이 > 2%p, R1b가 더 나쁨)¶

판정: VQ codebook이 성능에 해롭다. R1b의 peak error는 DLinear에서 비롯되며, VQ path가 noise를 추가한다.

초록 처리 (최소 필수 수정):

기존: "(ii) a dual-path architecture that combines a shared vector-quantized (VQ) codebook
       for federated pattern exchange with a lightweight DLinear residual for per-household personalization"
수정: "(ii) a lightweight DLinear backbone under federated aggregation with local personalization"

VQ, dual-path, codebook 관련 모든 문구 제거. 단어 수준 최소 수정 허용 범위 내로 처리.

논문 전략 (완전 재프레임): - 섹션 §3 Method: VQ 설명 대폭 축소, DLinear FL training 중심으로 재작성 - 섹션 §4.2 Ablation: "y_vq=0 outperforms R1b"를 투명하게 보고. VQ 제거로 성능 개선 = 아키텍처 단순화로 인한 효과 - contribution 재정의: - C1: Peak-weighted SmoothL1 loss (유지) - C2: Federated DLinear with local heads (simple yet effective) - C3 제거: VQ codebook 기여 claim 완전 삭제 - 서사 전환: "단순한 아키텍처 + 올바른 loss 설계가 FL에서 충분하다" → positive scientific finding으로 전환

venue 영향: Top-tier FL full paper 제출 포기. Workshop 또는 에너지 도메인 저널(loss 설계 focus)로 재포지셔닝.

과학적 honesty 가치: Branch D는 "negative result이지만 positive finding"으로 서술 가능. NeurIPS FL Workshop은 이런 결과를 수용한다. "Simpler is better for household peak FL" 결론은 실용적 기여.

3. 3-Tier 타임라인¶

Tier 1: D+7 = 2026-04-26 (Workshop-ready 기준)¶

목표: NeurIPS FL Workshop / FL-ICML 제출 최소 요건 충족

일자	실험/작업	담당	Claim	산출물
D+0 ~ D+1 AM (4/19~4/20)	y_vq=0 ablation: R1b VQ path 강제 0, PAPE/HR 비교 (5-seed)	engineer + exp-expert	C3 분기 결정	Branch A/B/C/D 자동 분류 + 비교 테이블
D+1 PM	Branch 결과에 따른 초록 최소 수정 확정	lab-leader	C3/C4	확정 문구
D+2 (4/21)	전 baseline 5-seed 재실행: B0, B1, P1, R1b 동일 seed set	exp-expert	C2, C6	PAPE mean±std, bootstrap 95% CI
D+3 AM (4/22)	FedRep baseline 구현 + 실행: shared encoder + DLinear personal head, 동일 param budget, 5-seed	engineer + exp-expert	C4	FedRep vs R1b 비교
D+3 PM	Ditto baseline 구현 + 실행: λ=0.1 단일값, 5-seed	engineer + exp-expert	C5	Ditto vs R1b
D+4 (4/23)	FedProx 구현 + 실행: μ=0.01 단일값, 5-seed; FedBN 또는 SCAFFOLD 1종	engineer + exp-expert	C5	총 FL baseline ≥ 5종
D+4 PM	통신 비용 측정: upload/download bytes per round, FedAvg vs R1b; Pareto plot (bytes vs PAPE)	engineer	(본문)	Pareto plot. R1b/FedAvg 통신량 비 공개
D+5 (4/24)	에너지 특화 FL 1종 (FedForecast 또는 PFSL 재현 가능한 것 1종)	engineer + exp-expert	C5 보강	에너지 도메인 baseline vs R1b
D+5 PM	Paired Wilcoxon signed-rank test + Bonferroni correction (C2~C6 각각)	exp-expert	C2~C6 통계	p-value 테이블, C6 bootstrap CI
D+6 (4/25)	전체 결과 통합. Claim rollback 조건 자동 적용. 초록 문구 확정	lab-leader + exp-expert	전체	논문 Table 2 초안, 확정 초록
D+7 (4/26)	exp-critic 2차 리뷰 (Tier 1 deliverable 대상)	exp-critic	전체	PASS/REJECT 판정

Tier 1 deliverable: - y_vq=0 ablation + Branch 분기 확정 - 전 baseline 5-seed + paired 통계 완료 - FL baseline ≥ 5종 (FedAvg/FedRep/Ditto/FedProx/FedBN 또는 SCAFFOLD + 에너지특화 1종) - Pareto plot (통신 비용) - bootstrap 95% CI for 9.8% reduction - 확정 초록 (rollback 반영 완료) - Workshop 제출용 4-page extended abstract 초안

Tier 1 미포함 항목 (명시적 결정): - Non-IID heterogeneity (Dirichlet α sweep) → Tier 2 - 50 clients 재실험 → Tier 2 (본문에 한계로 기재) - BESS 시뮬레이션 → Tier 2 - Ditto/FedProx hyperparameter sweep → Tier 2 (Tier 1은 단일 best 값만)

KIIE 분기: D+11 = 2026-04-30 (마감, 국내 학회)¶

목표: Tier 1 결과의 축소 claim 버전 제출

Tier 1 결과를 전제로 하되, 다음 사항 조정:

항목	Tier 1 (workshop)	KIIE 버전
FL baseline 수	≥ 5종	FedAvg + FedRep + Ditto = 3종으로 축소 가능
통계	Wilcoxon + Bonferroni + bootstrap CI	paired t-test + CI (국내 기준 충족)
초록 톤	top-tier workshop 스타일	국문 초록 + 기여 scope 축소
Claim 수준	"best peak accuracy across broad baselines"	"FedAvg 대비 9.8% 개선 + 주요 pFL 방법론과 비교"
BESS	없음	없음 (한계 명시로 대체)
에너지특화 FL	포함	생략 가능 (future work 언급)

KIIE 제출 조건: Tier 1 실험이 D+7까지 완료되어야 KIIE 버전 작성 가능. Tier 1 지연 시 KIIE 제출 자동 포기.

KIIE deliverable (D+8~D+11): - 국문 논문 초안 (6페이지 이내) - 축소 claim 초록 (국문) - Tier 1 결과 기반 Table 1 (baseline 비교) - thesis-writer에게 D+8 위임

Tier 2: D+21 = 2026-05-10 (Journal-ready 기준)¶

목표: IEEE TSG 또는 Applied Energy 제출 수준

추가 작업 (Tier 1 완료 이후):

일자	작업	Claim/섹션
D+8~D+9	Non-IID heterogeneity: Dirichlet α ∈ {0.1,0.5,1.0,10.0} sweep + 5가구 Wasserstein-1	§2 FL Motivation
D+9~D+10	BESS 시뮬레이션 버그 수정 (`compute_metrics_bug` 선결)	본문 §5 Operational Impact
D+10~D+12	BESS-FL 연결: R1b 예측 → TOU 비용 절감 정량화	§5 Operational Impact
D+12~D+14	50 clients 재실험: lr/γ/δ sweep, scalability 분석	§5 한계 또는 §5 확장
D+14~D+16	Ditto/FedProx hyperparameter sweep + pFedMe 추가 고려	§5 baseline 확장
D+16~D+18	MSE 20% 악화의 BESS 비용 영향 정량화	§4 trade-off 분석
D+18~D+21	전체 통합 + IEEE TSG 논문 형식 작성	전체

Tier 2 deliverable: - BESS 시뮬레이션 연결 완료 - heterogeneity sensitivity curve - 50 clients scalability 분석 - TSG/AE 제출용 full paper (8~10페이지)

4. venue 전략 최종 결정¶

1순위 (확정): NeurIPS FL Workshop / FL-ICML - 조건: Tier 1 완료 (D+7) - 제출 가능 상태: Branch 어느 경로에서도 workshop 제출 가능 - "Preliminary peak-aware FL for household forecasting" 프레이밍

2순위 (조건부): KIIE 2026-04-30 - 조건: Tier 1이 D+7까지 완료 + D+8~D+11 국문 작성 가능 - Tier 1 지연 시 자동 포기

3순위 (연기): IEEE TSG / Applied Energy - 조건: Tier 2 완료 (D+21) + BESS 시뮬레이션 완성 - Branch A 결과 시 TSG 포지셔닝 (FL 방법론 기여) - Branch B/D 결과 시 Applied Energy 포지셔닝 (에너지 운영 효율 기여)

포기: Top-tier FL full paper (ICML/NeurIPS/ICLR/AISTATS main track) - 현재 FL 방법론 contribution이 novelty 기준에 미달. Branch A에서도 리스크 과대.

5. Non-IID Heterogeneity 측정의 Tier 분류¶

Tier 1 포함 여부: 미포함 (Tier 2)

이유: - 5가구 Wasserstein-1 단독으로는 power가 부족하여 "FL이 유의미하다"는 claim 방어에 실질 기여 없음 (critic 지적 수용) - Dirichlet α sweep은 D+3~D+4의 FL baseline 구현 workload와 병렬 처리 불가 - Workshop 제출에서 heterogeneity 분석은 required가 아닌 preferred

Tier 1 내 대체 처리: 본문 §2에 "5 EC households exhibit natural load heterogeneity (mean pairwise correlation X)" 서술로 descriptive 수준 유지. Dirichlet sweep은 Tier 2 §2 확장으로 배치.

6. 통신 비용 처리 원칙¶

FedDPM(R1b): ~180K params (VQ encoder/decoder/codebook 포함) FedAvg(B1): ~4.6K params (DLinear only)

예상 결과: R1b가 FedAvg 대비 통신량 ~40배. 이 결과가 나오면: - 본문에서 "communication efficiency" 또는 효율 함의 문구 완전 삭제 - Pareto plot을 논문에 투명하게 게재 (bytes vs PAPE trade-off 공개) - 초록에 efficiency 문구가 없으므로 초록 수정 불필요 - contribution 재프레임: "peak-accuracy under privacy constraints (not communication-efficient)"

이 결과를 숨기거나 side-step하지 않는다. reviewer는 측정하지 않은 것을 더 의심한다.

7. Gate Check (강화판)¶

D+1 Gate (y_vq=0 결과): - exp-expert가 Branch A/B/C/D 분류를 rollback 조건 테이블 기반으로 보고 - lab-leader는 분류 결과 수용. override 불가 - D+2 이후 실험 착수

D+5 Gate (통계 완료 후): - exp-critic이 C2~C6 통계 검증 (paired Wilcoxon, bootstrap CI, Bonferroni) - PASS 조건: "C6 bootstrap CI lower bound > 0 (9.8% 방향 일관)" + "C5 ≥ 3종 대비 유의" - PASS 전까지 논문 초안 착수 불가

D+7 Gate (Tier 1 완료): - lab-leader가 7개 claim rollback 조건 체크. 자동 적용된 수정 사항 최종 확인 - KIIE 제출 여부 결정 (Tier 1 완료 시 thesis-writer에게 KIIE 버전 위임) - Workshop 4-page abstract 초안 위임

Critical 항목 처리 원칙: 본 플랜 실행 중 critic이 새로운 Critical 지적을 하면, 지적 항목 해결 없이 다음 phase 진행 불가. CONDITIONAL PASS 허용하지 않음.

부록: 각 Branch별 논문 기여 요약¶

Branch	C3 처리	논문 핵심 기여	venue
A	유지	Peak-aware FL + VQ codebook + DLinear personalization	Workshop → TSG
B (증거 있음)	alignment rewording	Peak-aware FL + VQ as regularizer + DLinear	Workshop → AE
B (증거 없음)	C3 삭제	Peak-aware FL + DLinear personalization	Workshop → AE
C	A 또는 B로 자동 분기	(A 또는 B에 따름)	(A 또는 B에 따름)
D	C3 삭제 + dual-path → single-path	Simpler is better: peak-weighted loss + DLinear FedAvg	Workshop (ablation as contribution)

이 문서는 v1 방어 계획의 구조적 결함(Branch D 누락, rollback 조건 부재, 단일 타임라인 비현실성)을 전면 재설계한 v3이다. v1은 의사결정 이력으로 보존된다. 핵심 분기는 D+1 y_vq=0 ablation 결과에 종속되며, 결과에 따른 claim 처리는 pre-registered 조건에 의해 자동 결정된다.