[2026-04-19 전환 노트] 이 문서(v3)는 보존됨. 후속 계획은
todos/track-e_vq_codebook_research.md로 발전됨. v3의 통계 요건(5-seed, Wilcoxon, bootstrap CI), Branch A/B/C/D 구조, Claim rollback 조건 테이블은 track-e에 전면 계승됨. 핵심 변경: Branch D의 의미가 "VQ 포기"에서 "Vanilla VQ 한계 입증 + 개선 기법 필요성 정당화"로 재프레임됨. track-e는 v3보다 공격적: VQ 개선 기법(EMA, RESET, K-means init, β sweep 등) 실험을 Tier 1 핵심으로 격상.
초록 방어 계획 v3: Critic 전면 반영 + 실행 가능 단일 플랜¶
[v3 변경 이력] v1 대비 diff¶
| 항목 | v1 | v3 | 변경 이유 |
|---|---|---|---|
| Branch 설계 | A/B/C 3분기 (Branch D 누락) | A/B/C/D 4분기 완전 대칭 | HARKing 구조 비판 수용. 과학적 falsifiability 확보 |
| Seed 수 | R1b 3-seed 재실행만 | 전 baseline 5-seed 동일 seed set 재실행 | 통계적 paired 분석을 위한 매칭 필수 |
| 통계 방법론 | "paired t-test 언급" 수준 | Paired Wilcoxon + bootstrap CI(1000) + Bonferroni 명시 | 정규성 가정 배제, 다중 비교 보정 |
| Claim별 rollback | 없음 | C1~C7 rollback 조건 테이블 신설 | pre-registered decision rule로 재량 override 금지 |
| 타임라인 | D+7 단일 | Tier 1(D+7) / KIIE(D+11) / Tier 2(D+21) 3단계 | D+7 현실성 없음 비판 수용 + 마감 대응 |
| FL baseline | FedRep/Ditto/FedProx | +FedBN 또는 SCAFFOLD 1종, 에너지특화 1종 | "broad set" claim 방어 강화 |
| venue 순위 | TSG 1순위 | NeurIPS FL Workshop 1순위, TSG는 Tier 2 이후 | BESS 연결 없이 TSG 제출 불가 판정 |
| Heterogeneity | Wasserstein-1 측정만 | Tier 1 포함 여부 명시 (Tier 2로 이동) | 5가구 power 부족 비판 수용. Tier 1 범위 집중 |
| "alignment" rewording | Branch B에서 채택 | 증거 없으면 채택 불가, 삭제 우선 | util <10% 상태에서 alignment 방어 불가 수용 |
미반영 항목 및 사유: - C7 "surpasses" 문구 수정: 초록 확정 전제 하에 본문에 "zero-shot vs FL-trained 비교" 주석을 추가하는 것으로 대체. 단어 수준 수정도 사용자가 금지한 취지를 훼손할 위험. 본문 disclosure로 충분히 방어 가능. - 50 clients 재실험: Tier 2에 배치. Tier 1 범위를 overload하지 않기 위해. 본문에 명시적 한계로 기재하는 것으로 Tier 1 내 처리. - Ditto β sweep + FedProx μ sweep 전체: Tier 1에서는 best hyperparameter 단일값만 실행. sweep은 Tier 2. workload 현실화 판단.
0. 전제: 방향 재확정¶
초록 (변경 불가 확정)¶
Accurate peak load forecasting is critical to power system operation, but household-level forecasting remains difficult due to load variability. Since consumption data are privacy-sensitive, federated learning (FL) offers a natural framework for collaborative modeling without centralized data collection. We propose a peak-aware FL framework with two components: (i) a peak-weighted SmoothL1 loss that emphasizes peak-time samples during training, and (ii) a dual-path architecture that combines a shared vector-quantized (VQ) codebook for federated pattern exchange with a lightweight DLinear residual for per-household personalization. We evaluate models using PAPE (Peak Absolute Percentage Error) and HR (Hit Rate), metrics tailored to peak-region accuracy. Across a broad set of baselines, the proposed model achieves the best peak accuracy, reducing PAPE by 9.8% relative to local-only training. Notably, our 4.6K-parameter model surpasses a 50M-parameter foundation model, showing that loss design and personalization outweigh model scale for household peak forecasting under privacy constraints.
수정 불가 원칙: 초록 전체 문장 구조 고정. Branch D 발동 시에만 "(ii) a dual-path architecture …" 구절을 최소 재구성하는 것을 허용 (단어 수준 수정 허용 범위에 포함).
과학적 정직성 선언¶
v3는 post-hoc rationalization 구조를 탈피한다. Branch 설계는 결과를 사전에 정의된 규칙에 따라 처리하며, lab-leader의 재량적 override는 금지된다. y_vq=0 결과가 어떤 방향이든 pre-registered rollback 조건에 따라 처리한다.
1. Claim별 방어 가능성 및 rollback 조건 테이블¶
| # | Claim 요약 | 현재 증거 | 통과 기준 (pre-registered) | Rollback 시 초록 수정안 |
|---|---|---|---|---|
| C1 | "FL offers a natural framework … privacy-sensitive" | 서술적 동기 | 서술 방어. 실험 불필요 | 없음 (삭제 조건 없음) |
| C2 | "peak-weighted SmoothL1 loss" | P1 vs B0/B1/V1 비교 | P1 PAPE < B1 PAPE (5-seed Wilcoxon p<0.05) | "peak-weighted" → "asymmetrically weighted" (최소 수정. 효과는 유지하되 peak emphasis 약화) |
| C3 | "VQ codebook for federated pattern exchange" | codebook util 3~6%, R1b single seed | y_vq=0 vs R1b PAPE 차이의 bootstrap 95% CI가 0 미포함 (Branch A 조건) | [A] 유지 / [B] "representation alignment"(증거 필요) / [D] "(ii)" 구절 전면 재구성 — 아래 Branch 상세 참조 |
| C4 | "DLinear residual for per-household personalization" | FedRep 비교 없음 | R1b PAPE < FedRep PAPE (5-seed Wilcoxon p<0.05) 또는 R1b PAPE가 FedRep의 95% CI 하한 미달 | "per-household personalization" → "local adaptation head" (novel personalization 주장 철회, 기능은 유지) |
| C5 | "broad set of baselines … best peak accuracy" | FedAvg 단 1종 | FL baseline ≥ 5종 추가 완료 + R1b가 그 중 최소 3종 대비 Wilcoxon p<0.05로 우위 | "best peak accuracy" → "competitive peak accuracy" (최상위 주장 철회) |
| C6 | "reducing PAPE by 9.8% relative to local-only" | B0(42.55%)→R1b(38.40%), single seed | bootstrap 95% CI (1000 resamples)의 lower bound > 5% | CI lower bound ≤ 5%이면 "9.8%" → 실제 CI 중앙값 % 수치로 교체. CI가 0 포함이면 "significant reduction (p<0.05)" 으로 수정 |
| C7 | "4.6K-param model surpasses 50M-param FM" | TimeMoE 50M zero-shot vs R1b FL-trained | 비교 조건 불균등 공개 명시 (본문 disclosure). 초록 수정 없음 | 본문에 "TimeMoE evaluated in zero-shot; our model evaluated after FL training on EC50" 문장 추가로 방어. 비교 자체를 철회하지 않음 |
프로세스 규칙: - 각 rollback 조건은 실험 결과 확인 즉시 자동 적용된다. - lab-leader가 "결과가 아쉽지만 claim 유지"를 선택하는 override는 금지된다. - critic이 이미 Critical로 지적한 항목은 CONDITIONAL PASS 없이 실질 해결 후 통과.
2. Branch A/B/C/D 상세 정의 (y_vq=0 ablation 결과 분기)¶
Branch A: R1b > y_vq=0 유의미하게 (PAPE 차이 > 2%p, bootstrap CI 0 미포함)¶
판정: VQ codebook 기여 확인됨. C3 claim 유지.
초록 처리: 변경 없음. "shared VQ codebook for federated pattern exchange" 유지.
논문 전략: - 섹션 구성: §4.2 Ablation에 "y_vq=0 vs R1b" 비교 테이블 + PAPE reduction 수치 명시 - codebook util 3~6%를 투명하게 기재: "Despite low utilization (6%), VQ codebook contributes X%p PAPE reduction" - FedRep 비교로 VQ shared codebook vs FedRep shared encoder의 차별성 논증 - 기여 서술: "Peak-aware FL framework with VQ codebook for federated pattern sharing + DLinear for personalization"
venue 적합성: Workshop 제출 가능. Tier 2에서 TSG/AE 논문으로 확장.
Branch B: y_vq=0 ≈ R1b (PAPE 차이 < 1%p, CI 0 포함)¶
판정: VQ 기여 통계적으로 0. "federated pattern exchange" 유지 불가.
초록 처리 (둘 중 하나 선택, 우선순위 순):
옵션 B-1 (권고): C3 완전 삭제 + "(ii)" 구절 재구성
기존: "(ii) a dual-path architecture that combines a shared vector-quantized (VQ) codebook
for federated pattern exchange with a lightweight DLinear residual for per-household personalization"
수정: "(ii) a lightweight DLinear architecture with local personalization heads trained
under peak-weighted federated objectives"
옵션 B-2 (증거 있을 때만 허용): "alignment" rewording
조건: 반드시 다음 증거가 존재해야 한다: - cross-client codebook usage overlap 분석 (동일 entry가 복수 client에서 사용됨을 확인) - loss variance across rounds (R1b < y_vq=0, VQ가 수렴 안정화 역할 확인) - gradient divergence 감소 지표 이 증거 없이 옵션 B-2 채택 불가. 증거 없으면 옵션 B-1 자동 적용.논문 전략: - contribution 1: peak-weighted SmoothL1 loss (유지) - contribution 2: per-household DLinear (novelty 축소, FL training framework로 재포지셔닝) - venue: Workshop 또는 KIIE. Top-tier FL 제출 포기. - 기여 서술: "Peak-aware FL training framework with lightweight DLinear and personalized local heads"
Branch C: 차이 1~2%p (회색지대)¶
판정 기준 (사전 정의): 분기 기준을 실험 후 협상하지 않는다.
C → A 분기: bootstrap 95% CI lower bound > 0 (즉 "R1b > y_vq=0" 방향으로 유의)
C → B 분기: bootstrap 95% CI가 0 포함
추가로 Paired Wilcoxon p < 0.05이면 방향에 따라 A 또는 D로 분류. "결과가 아쉽다"는 이유로 Branch C를 Branch A로 해석하는 것은 금지.
이 분기가 결국 A 또는 B 중 하나로 수렴하므로 별도 논문 전략 없음.
Branch D: y_vq=0 > R1b 유의미하게 (PAPE 차이 > 2%p, R1b가 더 나쁨)¶
판정: VQ codebook이 성능에 해롭다. R1b의 peak error는 DLinear에서 비롯되며, VQ path가 noise를 추가한다.
초록 처리 (최소 필수 수정):
기존: "(ii) a dual-path architecture that combines a shared vector-quantized (VQ) codebook
for federated pattern exchange with a lightweight DLinear residual for per-household personalization"
수정: "(ii) a lightweight DLinear backbone under federated aggregation with local personalization"
논문 전략 (완전 재프레임): - 섹션 §3 Method: VQ 설명 대폭 축소, DLinear FL training 중심으로 재작성 - 섹션 §4.2 Ablation: "y_vq=0 outperforms R1b"를 투명하게 보고. VQ 제거로 성능 개선 = 아키텍처 단순화로 인한 효과 - contribution 재정의: - C1: Peak-weighted SmoothL1 loss (유지) - C2: Federated DLinear with local heads (simple yet effective) - C3 제거: VQ codebook 기여 claim 완전 삭제 - 서사 전환: "단순한 아키텍처 + 올바른 loss 설계가 FL에서 충분하다" → positive scientific finding으로 전환
venue 영향: Top-tier FL full paper 제출 포기. Workshop 또는 에너지 도메인 저널(loss 설계 focus)로 재포지셔닝.
과학적 honesty 가치: Branch D는 "negative result이지만 positive finding"으로 서술 가능. NeurIPS FL Workshop은 이런 결과를 수용한다. "Simpler is better for household peak FL" 결론은 실용적 기여.
3. 3-Tier 타임라인¶
Tier 1: D+7 = 2026-04-26 (Workshop-ready 기준)¶
목표: NeurIPS FL Workshop / FL-ICML 제출 최소 요건 충족
| 일자 | 실험/작업 | 담당 | Claim | 산출물 |
|---|---|---|---|---|
| D+0 ~ D+1 AM (4/19~4/20) | y_vq=0 ablation: R1b VQ path 강제 0, PAPE/HR 비교 (5-seed) | engineer + exp-expert | C3 분기 결정 | Branch A/B/C/D 자동 분류 + 비교 테이블 |
| D+1 PM | Branch 결과에 따른 초록 최소 수정 확정 | lab-leader | C3/C4 | 확정 문구 |
| D+2 (4/21) | 전 baseline 5-seed 재실행: B0, B1, P1, R1b 동일 seed set | exp-expert | C2, C6 | PAPE mean±std, bootstrap 95% CI |
| D+3 AM (4/22) | FedRep baseline 구현 + 실행: shared encoder + DLinear personal head, 동일 param budget, 5-seed | engineer + exp-expert | C4 | FedRep vs R1b 비교 |
| D+3 PM | Ditto baseline 구현 + 실행: λ=0.1 단일값, 5-seed | engineer + exp-expert | C5 | Ditto vs R1b |
| D+4 (4/23) | FedProx 구현 + 실행: μ=0.01 단일값, 5-seed; FedBN 또는 SCAFFOLD 1종 | engineer + exp-expert | C5 | 총 FL baseline ≥ 5종 |
| D+4 PM | 통신 비용 측정: upload/download bytes per round, FedAvg vs R1b; Pareto plot (bytes vs PAPE) | engineer | (본문) | Pareto plot. R1b/FedAvg 통신량 비 공개 |
| D+5 (4/24) | 에너지 특화 FL 1종 (FedForecast 또는 PFSL 재현 가능한 것 1종) | engineer + exp-expert | C5 보강 | 에너지 도메인 baseline vs R1b |
| D+5 PM | Paired Wilcoxon signed-rank test + Bonferroni correction (C2~C6 각각) | exp-expert | C2~C6 통계 | p-value 테이블, C6 bootstrap CI |
| D+6 (4/25) | 전체 결과 통합. Claim rollback 조건 자동 적용. 초록 문구 확정 | lab-leader + exp-expert | 전체 | 논문 Table 2 초안, 확정 초록 |
| D+7 (4/26) | exp-critic 2차 리뷰 (Tier 1 deliverable 대상) | exp-critic | 전체 | PASS/REJECT 판정 |
Tier 1 deliverable: - y_vq=0 ablation + Branch 분기 확정 - 전 baseline 5-seed + paired 통계 완료 - FL baseline ≥ 5종 (FedAvg/FedRep/Ditto/FedProx/FedBN 또는 SCAFFOLD + 에너지특화 1종) - Pareto plot (통신 비용) - bootstrap 95% CI for 9.8% reduction - 확정 초록 (rollback 반영 완료) - Workshop 제출용 4-page extended abstract 초안
Tier 1 미포함 항목 (명시적 결정): - Non-IID heterogeneity (Dirichlet α sweep) → Tier 2 - 50 clients 재실험 → Tier 2 (본문에 한계로 기재) - BESS 시뮬레이션 → Tier 2 - Ditto/FedProx hyperparameter sweep → Tier 2 (Tier 1은 단일 best 값만)
KIIE 분기: D+11 = 2026-04-30 (마감, 국내 학회)¶
목표: Tier 1 결과의 축소 claim 버전 제출
Tier 1 결과를 전제로 하되, 다음 사항 조정:
| 항목 | Tier 1 (workshop) | KIIE 버전 |
|---|---|---|
| FL baseline 수 | ≥ 5종 | FedAvg + FedRep + Ditto = 3종으로 축소 가능 |
| 통계 | Wilcoxon + Bonferroni + bootstrap CI | paired t-test + CI (국내 기준 충족) |
| 초록 톤 | top-tier workshop 스타일 | 국문 초록 + 기여 scope 축소 |
| Claim 수준 | "best peak accuracy across broad baselines" | "FedAvg 대비 9.8% 개선 + 주요 pFL 방법론과 비교" |
| BESS | 없음 | 없음 (한계 명시로 대체) |
| 에너지특화 FL | 포함 | 생략 가능 (future work 언급) |
KIIE 제출 조건: Tier 1 실험이 D+7까지 완료되어야 KIIE 버전 작성 가능. Tier 1 지연 시 KIIE 제출 자동 포기.
KIIE deliverable (D+8~D+11): - 국문 논문 초안 (6페이지 이내) - 축소 claim 초록 (국문) - Tier 1 결과 기반 Table 1 (baseline 비교) - thesis-writer에게 D+8 위임
Tier 2: D+21 = 2026-05-10 (Journal-ready 기준)¶
목표: IEEE TSG 또는 Applied Energy 제출 수준
추가 작업 (Tier 1 완료 이후):
| 일자 | 작업 | Claim/섹션 |
|---|---|---|
| D+8~D+9 | Non-IID heterogeneity: Dirichlet α ∈ {0.1,0.5,1.0,10.0} sweep + 5가구 Wasserstein-1 | §2 FL Motivation |
| D+9~D+10 | BESS 시뮬레이션 버그 수정 (compute_metrics_bug 선결) |
본문 §5 Operational Impact |
| D+10~D+12 | BESS-FL 연결: R1b 예측 → TOU 비용 절감 정량화 | §5 Operational Impact |
| D+12~D+14 | 50 clients 재실험: lr/γ/δ sweep, scalability 분석 | §5 한계 또는 §5 확장 |
| D+14~D+16 | Ditto/FedProx hyperparameter sweep + pFedMe 추가 고려 | §5 baseline 확장 |
| D+16~D+18 | MSE 20% 악화의 BESS 비용 영향 정량화 | §4 trade-off 분석 |
| D+18~D+21 | 전체 통합 + IEEE TSG 논문 형식 작성 | 전체 |
Tier 2 deliverable: - BESS 시뮬레이션 연결 완료 - heterogeneity sensitivity curve - 50 clients scalability 분석 - TSG/AE 제출용 full paper (8~10페이지)
4. venue 전략 최종 결정¶
1순위 (확정): NeurIPS FL Workshop / FL-ICML - 조건: Tier 1 완료 (D+7) - 제출 가능 상태: Branch 어느 경로에서도 workshop 제출 가능 - "Preliminary peak-aware FL for household forecasting" 프레이밍
2순위 (조건부): KIIE 2026-04-30 - 조건: Tier 1이 D+7까지 완료 + D+8~D+11 국문 작성 가능 - Tier 1 지연 시 자동 포기
3순위 (연기): IEEE TSG / Applied Energy - 조건: Tier 2 완료 (D+21) + BESS 시뮬레이션 완성 - Branch A 결과 시 TSG 포지셔닝 (FL 방법론 기여) - Branch B/D 결과 시 Applied Energy 포지셔닝 (에너지 운영 효율 기여)
포기: Top-tier FL full paper (ICML/NeurIPS/ICLR/AISTATS main track) - 현재 FL 방법론 contribution이 novelty 기준에 미달. Branch A에서도 리스크 과대.
5. Non-IID Heterogeneity 측정의 Tier 분류¶
Tier 1 포함 여부: 미포함 (Tier 2)
이유: - 5가구 Wasserstein-1 단독으로는 power가 부족하여 "FL이 유의미하다"는 claim 방어에 실질 기여 없음 (critic 지적 수용) - Dirichlet α sweep은 D+3~D+4의 FL baseline 구현 workload와 병렬 처리 불가 - Workshop 제출에서 heterogeneity 분석은 required가 아닌 preferred
Tier 1 내 대체 처리: 본문 §2에 "5 EC households exhibit natural load heterogeneity (mean pairwise correlation X)" 서술로 descriptive 수준 유지. Dirichlet sweep은 Tier 2 §2 확장으로 배치.
6. 통신 비용 처리 원칙¶
FedDPM(R1b): ~180K params (VQ encoder/decoder/codebook 포함) FedAvg(B1): ~4.6K params (DLinear only)
예상 결과: R1b가 FedAvg 대비 통신량 ~40배. 이 결과가 나오면: - 본문에서 "communication efficiency" 또는 효율 함의 문구 완전 삭제 - Pareto plot을 논문에 투명하게 게재 (bytes vs PAPE trade-off 공개) - 초록에 efficiency 문구가 없으므로 초록 수정 불필요 - contribution 재프레임: "peak-accuracy under privacy constraints (not communication-efficient)"
이 결과를 숨기거나 side-step하지 않는다. reviewer는 측정하지 않은 것을 더 의심한다.
7. Gate Check (강화판)¶
D+1 Gate (y_vq=0 결과): - exp-expert가 Branch A/B/C/D 분류를 rollback 조건 테이블 기반으로 보고 - lab-leader는 분류 결과 수용. override 불가 - D+2 이후 실험 착수
D+5 Gate (통계 완료 후): - exp-critic이 C2~C6 통계 검증 (paired Wilcoxon, bootstrap CI, Bonferroni) - PASS 조건: "C6 bootstrap CI lower bound > 0 (9.8% 방향 일관)" + "C5 ≥ 3종 대비 유의" - PASS 전까지 논문 초안 착수 불가
D+7 Gate (Tier 1 완료): - lab-leader가 7개 claim rollback 조건 체크. 자동 적용된 수정 사항 최종 확인 - KIIE 제출 여부 결정 (Tier 1 완료 시 thesis-writer에게 KIIE 버전 위임) - Workshop 4-page abstract 초안 위임
Critical 항목 처리 원칙: 본 플랜 실행 중 critic이 새로운 Critical 지적을 하면, 지적 항목 해결 없이 다음 phase 진행 불가. CONDITIONAL PASS 허용하지 않음.
부록: 각 Branch별 논문 기여 요약¶
| Branch | C3 처리 | 논문 핵심 기여 | venue |
|---|---|---|---|
| A | 유지 | Peak-aware FL + VQ codebook + DLinear personalization | Workshop → TSG |
| B (증거 있음) | alignment rewording | Peak-aware FL + VQ as regularizer + DLinear | Workshop → AE |
| B (증거 없음) | C3 삭제 | Peak-aware FL + DLinear personalization | Workshop → AE |
| C | A 또는 B로 자동 분기 | (A 또는 B에 따름) | (A 또는 B에 따름) |
| D | C3 삭제 + dual-path → single-path | Simpler is better: peak-weighted loss + DLinear FedAvg | Workshop (ablation as contribution) |
이 문서는 v1 방어 계획의 구조적 결함(Branch D 누락, rollback 조건 부재, 단일 타임라인 비현실성)을 전면 재설계한 v3이다. v1은 의사결정 이력으로 보존된다. 핵심 분기는 D+1 y_vq=0 ablation 결과에 종속되며, 결과에 따른 claim 처리는 pre-registered 조건에 의해 자동 결정된다.