콘텐츠로 이동

v6 exp-expert

Exp6 FeDPM 결과 시각화 — 도면 설계 문서 (v2)

Source: report/version6/exp-expert/v6_0419_exp6_figures_design.md

Exp6 FeDPM 결과 시각화 — 도면 설계 문서 (v2)

  • 작성자: exp-expert
  • 버전: v2 (2026-04-19, exp-critic REVISE 반영)
  • 이전 버전: v1 (2026-04-19) — git log -- report/version6/exp-expert/v6_0419_exp6_figures_design.md 참조
  • 근거 보고서: report/version6/lab-leader/v6_0415_exp6_final_report.md
  • Critic 리뷰: report/version6/exp-critic/v6_0418_fl_baseline_adversarial_review.md (REVISE REQUIRED)
  • 구현 담당: engineer (별도 위임, 본 문서 스펙 확정)
  • 출력 경로: outputs/figures/v6_0419_exp6/
  • 툴 스택: matplotlib 3.x + seaborn (프로젝트 관례), pandas, mlflow
  • 공통 규칙:
  • DPI 300, 벡터(pdf) + 래스터(png) 동시 저장
  • 폰트: sans-serif, 논문 사이즈(본문 column width=3.3in, full-width=7.0in)
  • 색상: seaborn deep palette, FL 계열은 통일된 색상 체인 사용
  • 데이터는 data/exp6_results.csv에서 로드 (MLflow 우선, 유실 건은 보고서 직독 + 출처 주석)
  • 축 라벨·제목·범례·단위 필수
  • 재학습 없음, MLflow 신규 run 로깅 불필요(기존 run_id는 추적/참조용)

track-e v2 수정판 계획 — critic Critical/High/Medium 반영 내역 + engineer 지시서

Source: report/version6/exp-expert/v6_0419_track_e_revision_plan.md

track-e v2 수정판 계획

critic의 Critical 5 + High 3 + Medium 4 + 미해결 이전 Critical 4건에 대한 반영 내역과 D+0/D+1 engineer 지시서를 분리 기술한다.


1. Critic 지적 반영 매트릭스

1.1 Critical (5건) — 전원 반영

track-e v3 수정판 계획 — critic 2차 리뷰 6개 통과 필수 조건 대응

Source: report/version6/exp-expert/v6_0419_track_e_v3_revision_plan.md

track-e v3 수정판 계획

critic 2차 리뷰(CONDITIONAL REJECT, Critical 신규 2건 + 해결 위장 4건 + High/Medium 신규 3건)에 대한 6개 통과 필수 조건 각각의 대응 매트릭스와 D+0 밤 engineer 작업 재정의.

이번 revision이 1 revision cycle 내 마지막 expert 호출이므로 closure를 목표로 한다.


1. critic 2차 리뷰 6개 통과 필수 조건 대응 매트릭스

track-e v3 FL Baseline Workload Estimate — 실측 검증

Source: report/version6/exp-expert/v6_0419_track_e_workload_estimate.md

FL Baseline Workload Estimate (D+0 실측)

1. 실측 환경

항목
GPU NVIDIA RTX 5070 Ti
Config 5-client (Apt6/15/30/51/88), R=1, E=5, batch=32
Seed 42
seq_len / pred_len 96 / 24
Data Umass HH split (train=5758, val≈817, test=1657 per HH)
MLflow experiment track-e-fl-baseline-bench

v6 Baseline Reference (v7-recomputed via shared metrics module)

Source: report/version6/exp-expert/v6_baseline_reference.md

v6 Baseline Reference for v7 Smoke Sanity Review

⚠️ 의무 경고 (critic M3 대응, cycle 2/2 2026-04-19)

본 reference는 'Gate 판정 근거'로 사용 금지. smoke 해석 시 오직 "수치 규모 sanity (order-of-magnitude)"로만 참고할 것.

근거: - 표본은 N=1 seed (seed=42) 단일 run. IQR/분산/bootstrap 계산 원천 불가. - cycle 1 revision에서 제안한 ±5 tolerance 밴드는 통계 근거 부재로 본 cycle 2/2 에서 철회한다. - v7 smoke의 "합리성" 판정은 v7 내부 3-seed paired 분산으로만 수행. - smoke_analysis.py는 자동 footer로 본 경고를 verdict 보고서에 삽입한다.

Exp6 3-Seed 반복 및 MSE 등가 검증 보고서

Source: report/version6/exp-expert/v6_0415_exp6_3seed_mse_equiv.md

Exp6 3-Seed 반복 및 MSE 등가 검증 보고서

  • 실험: FeDPM Phase 2 통계적 유의성 검증
  • 날짜: 2026-04-15
  • 스크립트: experiments/distillation/v6_0415_fedpm_original.py

1. 3-Seed 반복 실험 (alpha=2.0, beta=2.0)

목적

Phase 2 최적 설정(alpha=2.0, beta=2.0)의 결과가 seed에 의존적인지 확인.

실험6 Phase 1 중간 리뷰 — FeDPM Codebook MVP

Source: report/version6/exp-expert/v6_0415_exp6_phase1_interim.md

실험6 Phase 1 중간 리뷰: FeDPM Codebook MVP

1. 실험 개요

항목 내용
목표 FeDPM Codebook MVP — 연합학습 가능성 + 피크 성능 확인
핵심 가설 (H6-1) Vanilla FeDPM(V1)은 FedAvg+DLinear(B1)과 동등하거나 낮은 MSE를 달성한다
판정 기준 V1 mean MSE ≤ B1 mean MSE
설계서 report/version6/lab-leader/v6_0415_exp6_design.md
데이터 EC50 중 5가구 (Apt6, Apt15, Apt30, Apt51, Apt88), seq_len=96, pred_len=24
날짜 2026-04-15

실험6 Phase 2: Peak-Weighted Loss 적용

Source: report/version6/exp-expert/v6_0415_exp6_phase2_peak_loss.md

실험6 Phase 2: Peak-Weighted Loss 적용

1. 목적

Phase 1에서 원본 FeDPM 아키텍처의 MSE(0.579)가 B0(0.522)과 유사한 수준으로 학습됨을 확인. 단, PAPE가 49.77%로 B0(42.55%) 대비 악화 — 피크 예측 정확도 개선이 필요.

Phase 2는 Peak-Weighted Loss를 적용하여 PAPE를 직접 공략한다.

2. Phase 1 결과 요약 (원본 FeDPM)

실험6 Phase 3: Residual Path 심층 분석 및 DLinear Residual 설계

Source: report/version6/exp-expert/v6_0415_exp6_phase3_residual_analysis.md

실험6 Phase 3: Residual Path 심층 분석 및 DLinear Residual 설계

1. Phase 3 결과 요약 (Residual MLP)

H6-3: FAIL

P1 (Phase 2 최선) R1 (Phase 3) Δ
MSE 0.543 0.539 -0.004 (유사)
PAPE 42.67% 45.70% +3.03%p (악화)
HR 27.8% 28.5% +0.7
CB Util 3.8% 4.1% +0.3