콘텐츠로 이동

track-e v2 수정판 계획

critic의 Critical 5 + High 3 + Medium 4 + 미해결 이전 Critical 4건에 대한 반영 내역과 D+0/D+1 engineer 지시서를 분리 기술한다.


1. Critic 지적 반영 매트릭스

1.1 Critical (5건) — 전원 반영

# 지적 요점 v2 반영 방식 반영 강도
C1 Branch D reframing = HARKing (Branch E 누락, Branch D 비대칭) Branch E 신설 + Branch D를 A의 거울로 대칭화 완전
C2 VQ 개선 기법 novelty 부재 mechanistic hypothesis per 기법 + 선행 연구 review(TimeVQVAE/FedVAE/FedKD/FeDPM) + "동일 도메인 FL에서 VQ pattern sharing의 성립 조건 체계 분석"으로 novelty 재포지셔닝 완전
C3 util 30% 임의성 + util↔PAPE decouple 30% 임의 목표 삭제 → 문헌 근거로 재설정 작업 Tier 0에 배정(T0-D), util↔PAPE Spearman 상관 Tier 1a deliverable, perplexity 병기 완전
C4 Tier 1 workload 6~10배 초과 Tier 1a(D+7)+Tier 1b(D+14) 분할 + VQ P0 3종 → 2종+pairwise, FL baseline 7종 → 5종(FedRep/Ditto/FedBN), β/M/γ sweep Tier 1b로 강등, D+0 engineer 실측 선행 완전
C5 초록 "강화" 방향 수정 = pre-registration 위반 강화 조항 완전 삭제. v3 원칙(rollback 방향만) 복원. C3 검증 기준도 bootstrap CI 0 미포함으로 방향 중립 pre-register 완전

1.2 High (3건) — 전원 반영

# 지적 요점 v2 반영 방식
H1 VQ 개선 기법 pairwise ablation 부재 Tier 1a에 EMA alone / KMEANS alone / EMA+KMEANS 3-way pairwise 명시. Tier 1b에서 RESET 포함 확장
H2 y_vq=0 단일 gate + Branch D 비대칭 Critical 1과 통합 처리
H3 FedRep/Ditto vs VQ 개선 자원 경쟁 FL baseline 완료 = Tier 1a hard requirement, VQ 축소 우선 원칙 명문화

1.3 Medium (4건) — 전원 반영

# 지적 요점 v2 반영 방식
M1 VQ-RESET threshold 근거 부재 Tier 0 T0-E: entry 평균 사용 횟수 분포 측정 → quantile 기반 threshold pre-register
M2 K-means warm-up round 수 임의 Tier 0 T0-F: {2, 5, 10} rounds 미니 sweep(single seed)
M3 γ=1.0 privacy narrative 모순 γ 상한 0.95로 제한. γ=1.0 실험 제외
M4 Cross-client overlap 방법 pre-register 부재 Primary = Jaccard overlap of argmax used-entry sets, Secondary = cosine similarity(threshold 0.9). Hungarian은 Tier 1b

1.4 미해결 이전 Critical 4건 — 전원 반영

항목 v2 조치
통신 측정 upload/download 분리, compression ratio vs FedAvg, per-round bytes 공식 pre-register
pFL 부재 FedBN을 Tier 1a에 1종 추가
Heterogeneity Dirichlet α ∈ {0.1, 1.0} Tier 1a 포함
BESS 연결 Workshop/KIIE 본문에 "operational evaluation in future work" 명시

1.5 반영 불가 / 부분 반영 (reason 명시)

  • VQ 개선 기법 P0 3종(EMA/KMEANS/RESET) 전원 Tier 1a: GPU 1대 168h 제약. RESET은 Tier 1b 배치. 사유 = workload 물리 한계. Tier 1b에서 Workshop rebuttal 시 추가 보강 가능.
  • 선행 연구 review 3편 Tier 0 완료: Tier 0 D+1은 FeDPM 원논문 util 수치 확인 1편만 우선. TimeVQVAE/FedVAE/FedKD 2편은 Tier 1a(D+2~D+6) 분산.

2. Tier 1 축소 결정 근거

선택된 옵션 = (A)+(B)+(D) 복합 (critic 제안 4개 옵션 중 복합 채택).

선택 근거

옵션 채택 여부 근거
(A) Tier 1a+Tier 1b 분할 채택 Workshop D+7 마감을 지키면서 Tier 1b(D+14)로 저널 준비 확보
(B) VQ P0을 EMA+KMEANS 2종 축소 채택 RESET은 구현 부담 크고 threshold 정찰(T0-E) 선행 필요. 2종+pairwise로 Tier 1a VQ 검증 충분
(C) FL baseline을 FedRep+Ditto 2종 축소 부분 반영 FedBN 추가(3종). pFL 대표 누락 위험(critic 미해결 Critical 2). FedProx/에너지 FL은 Tier 1b로
(D) β/M/γ sweep P1 → P2 강등 채택 Tier 1a는 "VQ 개선 여부" 판정에 집중, sweep은 Tier 1b

Tier 1a workload 추정 (D+0 engineer 실측 전 pre-estimate)

  • baseline 재실행 B0/B1/P1/R1b × 5-seed = 20 runs
  • VQ 개선 EMA/KMEANS/EMA+KMEANS × 5-seed = 15 runs
  • FL baseline FedRep/Ditto/FedBN × 5-seed = 15 runs
  • Dirichlet α ∈ {0.1, 1.0} × 5-seed = 10 runs
  • 총 60 runs (v1의 175 runs 대비 34%, critic 권고 40% 내)
  • 추정 GPU-hours = 60 × 평균 2h = 120h < 168h (단일 GPU 7일 가용)
  • D+0 engineer 실측으로 확정

3. Branch E 발동 시 대응 전략

Branch E 판정 조건

  • 최선 VQ 기법(Tier 1a = EMA+KMEANS 중 best) vs y_vq=0: bootstrap 95% CI 0 포함
  • AND 최선 VQ 기법 vs vanilla R1b: bootstrap 95% CI 0 포함
  • 개선 기법이 y_vq=0 대비도 개선 없고 vanilla 대비도 유의미한 개선 없음

Workshop negative-result paper 작성 가능성 평가

작성 가능 — 다음 3가지 근거:

  1. NeurIPS FL Workshop / FL-ICML negative result track: "What does NOT work in FL" 스타일 논문이 존재. Workshop은 methodological novelty보다 투명한 실험 설계+재현가능성 중시.

  2. Positive scientific finding framing 가능:

  3. Thesis: "Homogeneous-domain 5-client FL에서 standard VQ collapse remedies (EMA, K-means init)가 codebook utilization 회복에 실패"
  4. Contribution: (i) FeDPM 원논문의 cross-domain 설정과 동일 도메인의 격차 정량화, (ii) peak-weighted loss + DLinear FL이 VQ-based federated pattern sharing 없이도 경쟁력 있음 실증, (iii) VQ pattern sharing이 동일 도메인에서 성립하지 않는 조건(perplexity, overlap, heterogeneity) 분석

  5. 확보된 asset 활용:

  6. util/perplexity/Jaccard overlap 데이터 = 실패 원인 분석의 실증 자료
  7. Dirichlet α sweep {0.1, 1.0} = heterogeneity 조건의 VQ 성립 경계 자료
  8. FL baseline 5종 비교 = VQ 없이도 competitive peak accuracy

Branch E 시 4-page extended abstract 골격

  1. Intro — peak forecasting + FL + VQ-based federated pattern sharing motivation
  2. Method — peak-weighted SmoothL1 + DLinear FL + codebook exchange (투명하게 시도한 모든 개선 기법 명시)
  3. Experiments — Tier 1a 결과 + negative finding 정량화 (utilization %, bootstrap CI)
  4. Discussion — why it fails (domain homogeneity, encoder collapse), what we learned, future directions (cross-domain, larger M, non-vectorized sharing)

초록 수정 (Branch E)

  • C3 구문 완전 삭제 → "(ii) a lightweight DLinear architecture with local personalization heads trained under peak-weighted federated objectives" (옵션 B-1 재사용)
  • 본문에 "we investigated EMA/K-means initialization; neither improved upon y_vq=0 baseline (Table X)"

venue 적합성

  • Workshop 1순위: Conditional PASS (negative result가 실험 설계 + 정량화 엄밀하면 수용)
  • KIIE 2순위: "VQ codebook은 동일 도메인에서 pattern sharing 실패, DLinear 개인화가 핵심" 국문 narrative로 제출 가능
  • TSG/AE Journal: Branch E에서는 major revision도 불가. Tier 2에서 cross-domain dataset 추가 후 재도전

4. Engineer 지시서 (D+0 오늘 밤 ~ D+1)

4.1 D+0 작업 (오늘 2026-04-19 밤, 우선순위 순)

우선순위 1: FL baseline workload 실측

  • 목표: Tier 1a 범위 동결 근거 확보
  • 작업:
  • FedRep 스켈레톤 구현 (shared encoder + per-client personal head) → 1-seed × 1 round 실행 시간
  • Ditto 스켈레톤 구현 (λ=0.1 personalization regularizer) → 동일
  • FedBN 스켈레톤 구현 (BN parameter local 유지) → 동일
  • 5-seed × R rounds 추정 GPU-hours 계산 (병렬 vs 직렬)
  • 산출물: report/version6/exp-expert/v6_0419_track_e_workload_estimate.md (테이블: baseline/구현LOC/1-round 시간/5-seed GPU-hours 추정)
  • 완료 조건: 각 baseline별 실제 1-round 실행 성공 + 시간 측정

우선순위 2: Tier 0 스크립트 3개 준비

  • 파일:
  • experiments/federated/v7_0420_t0_yvq0_ablation.py — R1b의 VQ path에 y_vq=0 강제, PAPE/HR 비교, 5-seed
  • experiments/federated/v7_0420_t0_codebook_analysis.py — util, perplexity = 2^H(usage), entry 사용 빈도 히트맵, client별 argmax entry 분포, round별 active entry 수 추이, cross-client Jaccard overlap
  • experiments/federated/v7_0420_t0_reset_threshold_scout.py — 기존 R1b 체크포인트로부터 entry 평균 사용 횟수 분포 + quantile 기반 threshold 후보 산출
  • MLflow experiment: track-e-tier0
  • 필수 logging: MLflow Rules 준수 — best checkpoint artifact, test prediction .npy, per-epoch loss

우선순위 3: FeDPM 원논문 util 문헌 확인

  • 목표: T0-D Tier 0 deliverable, C3 util 목표 근거
  • 작업: 원논문의 cross-domain util % 추출, 우리 동일 도메인 3~6% 수치와의 격차 정량 비교
  • 산출물: agent-memory fedpm_paper_util_numbers.md (cross-domain util, 사용된 M, client 수, domain 종류)

4.2 D+1 작업 (2026-04-20)

  • 우선순위 1: T0-A (y_vq=0 ablation 5-seed) 실행 + Branch A~E 자동 분류
  • 우선순위 2: T0-B, T0-C (codebook 상세 + Jaccard overlap) 시각화 PNG 생성
  • 우선순위 3: T0-E, T0-F (RESET threshold, K-means warm-up round 정찰) 실행

D+1 PM에 exp-expert가 Branch 분류 확정 + Tier 1a 범위 lab-leader 수용.


5. 최종 D+0 산출물

  1. todos/track-e_vq_codebook_research.md (v2, 이 계획과 함께 완성)
  2. report/version6/exp-expert/v6_0419_track_e_revision_plan.md (본 문서)
  3. engineer D+0 산출물: report/version6/exp-expert/v6_0419_track_e_workload_estimate.md (engineer 작성)
  4. engineer D+0 산출물: Tier 0 스크립트 3개
  5. engineer D+0 산출물: agent-memory fedpm_paper_util_numbers.md

6. 요약

  • v2는 critic의 Critical/High/Medium 12건 + 미해결 이전 Critical 4건 전원 반영
  • 반영 불가 2건은 workload 물리 한계 사유로 Tier 1b 지연 (완전 미반영 아님)
  • Tier 1을 1a(D+7, 60 runs)+1b(D+14, 확장) 분할 + VQ P0 축소 + FL baseline 5종 유지
  • Branch E 신설로 HARKing 구조 탈피, negative result paper 경로 확보
  • 초록 강화 조항 삭제, v3 원칙(rollback 방향만) 복원
  • D+0 engineer 3 작업 + D+1 Tier 0 실행으로 Branch 확정 → Tier 1a 동결