track-e v2 수정판 계획¶
critic의 Critical 5 + High 3 + Medium 4 + 미해결 이전 Critical 4건에 대한 반영 내역과 D+0/D+1 engineer 지시서를 분리 기술한다.
1. Critic 지적 반영 매트릭스¶
1.1 Critical (5건) — 전원 반영¶
| # | 지적 요점 | v2 반영 방식 | 반영 강도 |
|---|---|---|---|
| C1 | Branch D reframing = HARKing (Branch E 누락, Branch D 비대칭) | Branch E 신설 + Branch D를 A의 거울로 대칭화 | 완전 |
| C2 | VQ 개선 기법 novelty 부재 | mechanistic hypothesis per 기법 + 선행 연구 review(TimeVQVAE/FedVAE/FedKD/FeDPM) + "동일 도메인 FL에서 VQ pattern sharing의 성립 조건 체계 분석"으로 novelty 재포지셔닝 | 완전 |
| C3 | util 30% 임의성 + util↔PAPE decouple | 30% 임의 목표 삭제 → 문헌 근거로 재설정 작업 Tier 0에 배정(T0-D), util↔PAPE Spearman 상관 Tier 1a deliverable, perplexity 병기 | 완전 |
| C4 | Tier 1 workload 6~10배 초과 | Tier 1a(D+7)+Tier 1b(D+14) 분할 + VQ P0 3종 → 2종+pairwise, FL baseline 7종 → 5종(FedRep/Ditto/FedBN), β/M/γ sweep Tier 1b로 강등, D+0 engineer 실측 선행 | 완전 |
| C5 | 초록 "강화" 방향 수정 = pre-registration 위반 | 강화 조항 완전 삭제. v3 원칙(rollback 방향만) 복원. C3 검증 기준도 bootstrap CI 0 미포함으로 방향 중립 pre-register | 완전 |
1.2 High (3건) — 전원 반영¶
| # | 지적 요점 | v2 반영 방식 |
|---|---|---|
| H1 | VQ 개선 기법 pairwise ablation 부재 | Tier 1a에 EMA alone / KMEANS alone / EMA+KMEANS 3-way pairwise 명시. Tier 1b에서 RESET 포함 확장 |
| H2 | y_vq=0 단일 gate + Branch D 비대칭 | Critical 1과 통합 처리 |
| H3 | FedRep/Ditto vs VQ 개선 자원 경쟁 | FL baseline 완료 = Tier 1a hard requirement, VQ 축소 우선 원칙 명문화 |
1.3 Medium (4건) — 전원 반영¶
| # | 지적 요점 | v2 반영 방식 |
|---|---|---|
| M1 | VQ-RESET threshold 근거 부재 | Tier 0 T0-E: entry 평균 사용 횟수 분포 측정 → quantile 기반 threshold pre-register |
| M2 | K-means warm-up round 수 임의 | Tier 0 T0-F: {2, 5, 10} rounds 미니 sweep(single seed) |
| M3 | γ=1.0 privacy narrative 모순 | γ 상한 0.95로 제한. γ=1.0 실험 제외 |
| M4 | Cross-client overlap 방법 pre-register 부재 | Primary = Jaccard overlap of argmax used-entry sets, Secondary = cosine similarity(threshold 0.9). Hungarian은 Tier 1b |
1.4 미해결 이전 Critical 4건 — 전원 반영¶
| 항목 | v2 조치 |
|---|---|
| 통신 측정 | upload/download 분리, compression ratio vs FedAvg, per-round bytes 공식 pre-register |
| pFL 부재 | FedBN을 Tier 1a에 1종 추가 |
| Heterogeneity | Dirichlet α ∈ {0.1, 1.0} Tier 1a 포함 |
| BESS 연결 | Workshop/KIIE 본문에 "operational evaluation in future work" 명시 |
1.5 반영 불가 / 부분 반영 (reason 명시)¶
- VQ 개선 기법 P0 3종(EMA/KMEANS/RESET) 전원 Tier 1a: GPU 1대 168h 제약. RESET은 Tier 1b 배치. 사유 = workload 물리 한계. Tier 1b에서 Workshop rebuttal 시 추가 보강 가능.
- 선행 연구 review 3편 Tier 0 완료: Tier 0 D+1은 FeDPM 원논문 util 수치 확인 1편만 우선. TimeVQVAE/FedVAE/FedKD 2편은 Tier 1a(D+2~D+6) 분산.
2. Tier 1 축소 결정 근거¶
선택된 옵션 = (A)+(B)+(D) 복합 (critic 제안 4개 옵션 중 복합 채택).
선택 근거¶
| 옵션 | 채택 여부 | 근거 |
|---|---|---|
| (A) Tier 1a+Tier 1b 분할 | 채택 | Workshop D+7 마감을 지키면서 Tier 1b(D+14)로 저널 준비 확보 |
| (B) VQ P0을 EMA+KMEANS 2종 축소 | 채택 | RESET은 구현 부담 크고 threshold 정찰(T0-E) 선행 필요. 2종+pairwise로 Tier 1a VQ 검증 충분 |
| (C) FL baseline을 FedRep+Ditto 2종 축소 | 부분 반영 | FedBN 추가(3종). pFL 대표 누락 위험(critic 미해결 Critical 2). FedProx/에너지 FL은 Tier 1b로 |
| (D) β/M/γ sweep P1 → P2 강등 | 채택 | Tier 1a는 "VQ 개선 여부" 판정에 집중, sweep은 Tier 1b |
Tier 1a workload 추정 (D+0 engineer 실측 전 pre-estimate)¶
- baseline 재실행 B0/B1/P1/R1b × 5-seed = 20 runs
- VQ 개선 EMA/KMEANS/EMA+KMEANS × 5-seed = 15 runs
- FL baseline FedRep/Ditto/FedBN × 5-seed = 15 runs
- Dirichlet α ∈ {0.1, 1.0} × 5-seed = 10 runs
- 총 60 runs (v1의 175 runs 대비 34%, critic 권고 40% 내)
- 추정 GPU-hours = 60 × 평균 2h = 120h < 168h (단일 GPU 7일 가용)
- D+0 engineer 실측으로 확정
3. Branch E 발동 시 대응 전략¶
Branch E 판정 조건¶
- 최선 VQ 기법(Tier 1a = EMA+KMEANS 중 best) vs y_vq=0: bootstrap 95% CI 0 포함
- AND 최선 VQ 기법 vs vanilla R1b: bootstrap 95% CI 0 포함
- 즉 개선 기법이 y_vq=0 대비도 개선 없고 vanilla 대비도 유의미한 개선 없음
Workshop negative-result paper 작성 가능성 평가¶
작성 가능 — 다음 3가지 근거:
-
NeurIPS FL Workshop / FL-ICML negative result track: "What does NOT work in FL" 스타일 논문이 존재. Workshop은 methodological novelty보다 투명한 실험 설계+재현가능성 중시.
-
Positive scientific finding framing 가능:
- Thesis: "Homogeneous-domain 5-client FL에서 standard VQ collapse remedies (EMA, K-means init)가 codebook utilization 회복에 실패"
-
Contribution: (i) FeDPM 원논문의 cross-domain 설정과 동일 도메인의 격차 정량화, (ii) peak-weighted loss + DLinear FL이 VQ-based federated pattern sharing 없이도 경쟁력 있음 실증, (iii) VQ pattern sharing이 동일 도메인에서 성립하지 않는 조건(perplexity, overlap, heterogeneity) 분석
-
확보된 asset 활용:
- util/perplexity/Jaccard overlap 데이터 = 실패 원인 분석의 실증 자료
- Dirichlet α sweep {0.1, 1.0} = heterogeneity 조건의 VQ 성립 경계 자료
- FL baseline 5종 비교 = VQ 없이도 competitive peak accuracy
Branch E 시 4-page extended abstract 골격¶
- Intro — peak forecasting + FL + VQ-based federated pattern sharing motivation
- Method — peak-weighted SmoothL1 + DLinear FL + codebook exchange (투명하게 시도한 모든 개선 기법 명시)
- Experiments — Tier 1a 결과 + negative finding 정량화 (utilization %, bootstrap CI)
- Discussion — why it fails (domain homogeneity, encoder collapse), what we learned, future directions (cross-domain, larger M, non-vectorized sharing)
초록 수정 (Branch E)¶
- C3 구문 완전 삭제 → "(ii) a lightweight DLinear architecture with local personalization heads trained under peak-weighted federated objectives" (옵션 B-1 재사용)
- 본문에 "we investigated EMA/K-means initialization; neither improved upon y_vq=0 baseline (Table X)"
venue 적합성¶
- Workshop 1순위: Conditional PASS (negative result가 실험 설계 + 정량화 엄밀하면 수용)
- KIIE 2순위: "VQ codebook은 동일 도메인에서 pattern sharing 실패, DLinear 개인화가 핵심" 국문 narrative로 제출 가능
- TSG/AE Journal: Branch E에서는 major revision도 불가. Tier 2에서 cross-domain dataset 추가 후 재도전
4. Engineer 지시서 (D+0 오늘 밤 ~ D+1)¶
4.1 D+0 작업 (오늘 2026-04-19 밤, 우선순위 순)¶
우선순위 1: FL baseline workload 실측¶
- 목표: Tier 1a 범위 동결 근거 확보
- 작업:
- FedRep 스켈레톤 구현 (shared encoder + per-client personal head) → 1-seed × 1 round 실행 시간
- Ditto 스켈레톤 구현 (λ=0.1 personalization regularizer) → 동일
- FedBN 스켈레톤 구현 (BN parameter local 유지) → 동일
- 5-seed × R rounds 추정 GPU-hours 계산 (병렬 vs 직렬)
- 산출물:
report/version6/exp-expert/v6_0419_track_e_workload_estimate.md(테이블: baseline/구현LOC/1-round 시간/5-seed GPU-hours 추정) - 완료 조건: 각 baseline별 실제 1-round 실행 성공 + 시간 측정
우선순위 2: Tier 0 스크립트 3개 준비¶
- 파일:
experiments/federated/v7_0420_t0_yvq0_ablation.py— R1b의 VQ path에 y_vq=0 강제, PAPE/HR 비교, 5-seedexperiments/federated/v7_0420_t0_codebook_analysis.py— util, perplexity = 2^H(usage), entry 사용 빈도 히트맵, client별 argmax entry 분포, round별 active entry 수 추이, cross-client Jaccard overlapexperiments/federated/v7_0420_t0_reset_threshold_scout.py— 기존 R1b 체크포인트로부터 entry 평균 사용 횟수 분포 + quantile 기반 threshold 후보 산출- MLflow experiment:
track-e-tier0 - 필수 logging: MLflow Rules 준수 — best checkpoint artifact, test prediction .npy, per-epoch loss
우선순위 3: FeDPM 원논문 util 문헌 확인¶
- 목표: T0-D Tier 0 deliverable, C3 util 목표 근거
- 작업: 원논문의 cross-domain util % 추출, 우리 동일 도메인 3~6% 수치와의 격차 정량 비교
- 산출물: agent-memory
fedpm_paper_util_numbers.md(cross-domain util, 사용된 M, client 수, domain 종류)
4.2 D+1 작업 (2026-04-20)¶
- 우선순위 1: T0-A (y_vq=0 ablation 5-seed) 실행 + Branch A~E 자동 분류
- 우선순위 2: T0-B, T0-C (codebook 상세 + Jaccard overlap) 시각화 PNG 생성
- 우선순위 3: T0-E, T0-F (RESET threshold, K-means warm-up round 정찰) 실행
D+1 PM에 exp-expert가 Branch 분류 확정 + Tier 1a 범위 lab-leader 수용.
5. 최종 D+0 산출물¶
todos/track-e_vq_codebook_research.md(v2, 이 계획과 함께 완성)report/version6/exp-expert/v6_0419_track_e_revision_plan.md(본 문서)- engineer D+0 산출물:
report/version6/exp-expert/v6_0419_track_e_workload_estimate.md(engineer 작성) - engineer D+0 산출물: Tier 0 스크립트 3개
- engineer D+0 산출물: agent-memory
fedpm_paper_util_numbers.md
6. 요약¶
- v2는 critic의 Critical/High/Medium 12건 + 미해결 이전 Critical 4건 전원 반영
- 반영 불가 2건은 workload 물리 한계 사유로 Tier 1b 지연 (완전 미반영 아님)
- Tier 1을 1a(D+7, 60 runs)+1b(D+14, 확장) 분할 + VQ P0 축소 + FL baseline 5종 유지
- Branch E 신설로 HARKing 구조 탈피, negative result paper 경로 확보
- 초록 강화 조항 삭제, v3 원칙(rollback 방향만) 복원
- D+0 engineer 3 작업 + D+1 Tier 0 실행으로 Branch 확정 → Tier 1a 동결