콘텐츠로 이동

실험 기록

track-e v2 2차 적대적 리뷰 — 실질 해결 vs 해결 위장 분류

Source: report/version6/exp-critic/v6_0419_track_e_v2_adversarial_review.md

track-e v2 2차 적대적 리뷰

종합 판정: CONDITIONAL REJECT (실질 개선 3건, 해결 위장 4건, 악화 1건, 신규 결함 4건). v2는 v1 대비 문서 수준에서는 대폭 개선됐으나, 논리 구조 수준에서 Branch E 발동 불가라는 치명적 결함이 새로 발생함. Workshop 제출(D+7)을 Branch 판정 미결 상태로 강행하게 만드는 구조적 모순이 존재함.


0. Executive Summary (한국어 인라인 요약 ~300단어)

v2는 v1의 HARKing 구조와 175-runs workload overrun에 대해 다섯 가지 표면 지표에서 개선을 보였다. Branch E 신설, Branch D 대칭화, 초록 강화 조항 삭제, Tier 1a/1b 분할, γ ≤ 0.95 상한이 그것이다. 이 중 초록 강화 조항 삭제(C5)와 γ 상한(M3)은 실질 해결로 판정한다. Branch 5분기 대칭화(C1, H2)도 문서 수준에서 대칭을 확보했다.

Exp6 FeDPM 결과 시각화 — 도면 설계 문서 (v2)

Source: report/version6/exp-expert/v6_0419_exp6_figures_design.md

Exp6 FeDPM 결과 시각화 — 도면 설계 문서 (v2)

  • 작성자: exp-expert
  • 버전: v2 (2026-04-19, exp-critic REVISE 반영)
  • 이전 버전: v1 (2026-04-19) — git log -- report/version6/exp-expert/v6_0419_exp6_figures_design.md 참조
  • 근거 보고서: report/version6/lab-leader/v6_0415_exp6_final_report.md
  • Critic 리뷰: report/version6/exp-critic/v6_0418_fl_baseline_adversarial_review.md (REVISE REQUIRED)
  • 구현 담당: engineer (별도 위임, 본 문서 스펙 확정)
  • 출력 경로: outputs/figures/v6_0419_exp6/
  • 툴 스택: matplotlib 3.x + seaborn (프로젝트 관례), pandas, mlflow
  • 공통 규칙:
  • DPI 300, 벡터(pdf) + 래스터(png) 동시 저장
  • 폰트: sans-serif, 논문 사이즈(본문 column width=3.3in, full-width=7.0in)
  • 색상: seaborn deep palette, FL 계열은 통일된 색상 체인 사용
  • 데이터는 data/exp6_results.csv에서 로드 (MLflow 우선, 유실 건은 보고서 직독 + 출처 주석)
  • 축 라벨·제목·범례·단위 필수
  • 재학습 없음, MLflow 신규 run 로깅 불필요(기존 run_id는 추적/참조용)

track-e v2 수정판 계획 — critic Critical/High/Medium 반영 내역 + engineer 지시서

Source: report/version6/exp-expert/v6_0419_track_e_revision_plan.md

track-e v2 수정판 계획

critic의 Critical 5 + High 3 + Medium 4 + 미해결 이전 Critical 4건에 대한 반영 내역과 D+0/D+1 engineer 지시서를 분리 기술한다.


1. Critic 지적 반영 매트릭스

1.1 Critical (5건) — 전원 반영

track-e v3 수정판 계획 — critic 2차 리뷰 6개 통과 필수 조건 대응

Source: report/version6/exp-expert/v6_0419_track_e_v3_revision_plan.md

track-e v3 수정판 계획

critic 2차 리뷰(CONDITIONAL REJECT, Critical 신규 2건 + 해결 위장 4건 + High/Medium 신규 3건)에 대한 6개 통과 필수 조건 각각의 대응 매트릭스와 D+0 밤 engineer 작업 재정의.

이번 revision이 1 revision cycle 내 마지막 expert 호출이므로 closure를 목표로 한다.


1. critic 2차 리뷰 6개 통과 필수 조건 대응 매트릭스

track-e v3 FL Baseline Workload Estimate — 실측 검증

Source: report/version6/exp-expert/v6_0419_track_e_workload_estimate.md

FL Baseline Workload Estimate (D+0 실측)

1. 실측 환경

항목
GPU NVIDIA RTX 5070 Ti
Config 5-client (Apt6/15/30/51/88), R=1, E=5, batch=32
Seed 42
seq_len / pred_len 96 / 24
Data Umass HH split (train=5758, val≈817, test=1657 per HH)
MLflow experiment track-e-fl-baseline-bench

v7 실험 프로세스 재설계 — Vertical Slice Smoke Test (단계 0.5) + Fail-Fast Gates

Source: report/version7/exp-expert/v7_0419_process_redesign_with_smoke_test.md

v7 실험 프로세스 재설계 (Smoke Test + Fail-Fast)

0. 요약 (Executive Summary)

exp-critic 적대적 검토 결과 REJECT (현 6단계 그대로)단계 0.5 Vertical Slice Smoke Test 삽입 시 CONDITIONAL PASS. 본 문서는 5건의 Critical 사각지대(silent NaN, PAPE dual definition, scaler leakage, figure 비재현성, paired seed 깨짐)를 단계 0.5 + per-run fail-fast hook + 단계 1 early checkpoint 의 3-layer 안전망으로 차단한 재설계안.

추가 비용: +1.5h (총 ≈26.5h, 2~3일). 회피 시나리오: 6h 재실행 + Apt 5가구 silent leak 감지 지연 (ROI 4~10×).


초록 방어 계획: FL Framework 논문으로의 포지셔닝

Source: report/version6/lab-leader/v6_0418_abstract_defense_plan.md

초록 방어 계획: Claim별 증거 연결 및 실험 설계

0. 전제: 방향 재정의

v2 보고서(v6_0418_fl_baseline_critique.md)는 "선택지 B(Peak Loss 단독 논문)로 전환"을 권고했다.
그러나 사용자가 아래 초록을 변경 불가 확정 상태로 전달했다. 초록은 명시적으로 FL framework 논문으로 포지셔닝된다.

Accurate peak load forecasting is critical to power system operation, but household-level forecasting remains difficult due to load variability. Since consumption data are privacy-sensitive, federated learning (FL) offers a natural framework for collaborative modeling without centralized data collection.
We propose a peak-aware FL framework with two components: (i) a peak-weighted SmoothL1 loss that emphasizes peak-time samples during training, and (ii) a dual-path architecture that combines a shared vector-quantized (VQ) codebook for federated pattern exchange with a lightweight DLinear residual for per-household personalization. We evaluate models using PAPE (Peak Absolute Percentage Error) and HR (Hit Rate), metrics tailored to peak-region accuracy.
Across a broad set of baselines, the proposed model achieves the best peak accuracy, reducing PAPE by 9.8% relative to local-only training. Notably, our 4.6K-parameter model surpasses a 50M-parameter foundation model, showing that loss design and personalization outweigh model scale for household peak forecasting under privacy constraints.

FL 베이스라인 평가 비판 및 v7 방향 제안

Source: report/version6/lab-leader/v6_0418_fl_baseline_critique.md

FL 베이스라인 평가 비판 및 v7 방향 제안

변경 이력

버전 날짜 변경 사항
v1 2026-04-18 최초 작성 (6가지 비판, 선택지 A/B/C)
v2 2026-04-18 exp-critic 적대적 리뷰 반영. 4개 Critical 항목 추가, 프로세스 결함 섹션 신설, 선택지 C(절충안) 폐기 및 단일 권고로 수렴. y_vq=0 ablation, FedRep 비교 필요성, 통신 비용 0건 측정 등 원본 누락 사항 통합.

초록 방어 계획 v3: critic 전면 반영판

Source: report/version6/lab-leader/v6_0419_abstract_defense_plan_v3.md

[2026-04-19 전환 노트] 이 문서(v3)는 보존됨. 후속 계획은 todos/track-e_vq_codebook_research.md로 발전됨. v3의 통계 요건(5-seed, Wilcoxon, bootstrap CI), Branch A/B/C/D 구조, Claim rollback 조건 테이블은 track-e에 전면 계승됨. 핵심 변경: Branch D의 의미가 "VQ 포기"에서 "Vanilla VQ 한계 입증 + 개선 기법 필요성 정당화"로 재프레임됨. track-e는 v3보다 공격적: VQ 개선 기법(EMA, RESET, K-means init, β sweep 등) 실험을 Tier 1 핵심으로 격상.

초록 방어 계획 v3: Critic 전면 반영 + 실행 가능 단일 플랜


[v3 변경 이력] v1 대비 diff