콘텐츠로 이동

2026

v7 Stage 0.5 Gate 5 Convergence Metric — Redesign v2 (REJECT 대응)

Source: report/version7/exp-expert/v7_stage05_gate5_redesign_v2.md

v7 Stage 0.5 Gate 5 — Redesign v2

0. 요약

항목
v6 back-test 표본 n = 22 converged runs (MIN_STEPS≥10, 14개 experiment 스캔)
기존 metric moving/initial 의 v6 false-positive rate 1.0 (22/22 FAIL — 수렴한 v6 run 전부 FAIL)
새 metric rel_decrease = (mean(val[:3]) − mean(val[-3:])) / mean(val[:3])
v6 분포 (n=22) p05 = −0.0005, p10 = 0.0017, p50 = 0.0350, p95 = 0.0949
PASS cutoff rel_decrease ≥ 0.0017 (v6 P10 → TPR 86.4%)
WARNING cutoff 0.0 ≤ rel_decrease < 0.0017 (v6 P05~P10 → TPR 90.9% 합산)
FAIL cutoff rel_decrease < 0.0 (net increase — 수렴 방향 반대)
9-run smoke 재평가 PASS 5 / WARNING 1 / FAIL 3 / ERROR 0
Stage 1 권고 HOLD (FAIL 3개 = A3 cell 전 seed 발산 신호)

v7 Stage 0.5 Smoke Infrastructure — Revision v2 (critic cycle 2/2 대응)

Source: report/version7/exp-expert/v7_stage05_smoke_infra_v2.md

v7 Stage 0.5 Smoke Infrastructure — Revision v2 Report

Critic 의 CONDITIONAL PASS 판정(C1~C5 CRITICAL + M1~M5 MAJOR)에 대한 cycle 2/2 최종 revision. 본 revision 후 hook 자동 중단되므로 모든 CRITICAL 해소가 필수였다.

Executive Summary

  • CRITICAL 5건 전부 해소 (C1, C2, C3, C4, C5).
  • C1/C3/C4/C5: expert 단독 해소 (코드 + 테스트).
  • C2: engineer 위임 contract 문서화 (orchestrator 경유 engineer 호출 필요).
  • MAJOR 5건 중 3건 해소 (M1, M3, M5).
  • pytest 19 신규 tests 전부 PASS — 기존 102 tests 회귀 없음.
  • PASS 경로 실증: 12 synthetic runs 모두 Gate 1/2/5/6 PASS + overall "ALL PASS" 반환 확인 (test_aggregate_all_pass).

v8 VQ Rescue 실패 분석 + v9 재설계안 (Option d 선정)

Source: report/version8/exp-expert/v8_failure_root_cause_and_redesign.md

v8 VQ Rescue 실패 분석 + v9 재설계안

ADR-008 §5 실패 프로토콜 발동. V4/V5 모두 PAPE ≥ 50 달성 (V4 56.51, V5 53.32). 파라미터 튜닝 금지 하에 VQ 방법론 근본 재설계 필요.


§0 상충 가설 정립 (시작점)

"같은 구조 v6 R1b는 PAPE 38.40을 달성했는데 v7/v8은 53~56이다. 구현 결함 때문이다." (ADR-008 §근거)

v7 Peak-Aware FL 캠페인 Stage 0 + Stage 0.5 중간 보고서

Source: report/version7/reporter/v7_stage0_stage05_interim_report.md

v7 Peak-Aware FL 캠페인 Stage 0 + Stage 0.5 중간 보고서

브랜치: v7-planning 기준일: 2026-04-20 (UTC 기준 smoke 실행 완료일) 상위 문서: - ADR: docs/decisions/ADR-007_v6_to_v7.md - Design spec: docs/reference/project_state/track_v7_design.md - Track TODO: todos/track-v7_peak_aware_fl.md


실험 비판 보고서: Exp6 결과 시각화 설계 문서 (v6_0419_exp6_figures_design.md)

Source: report/version6/exp-critic/v6_0419_exp6_figures_review.md

실험 비판 보고서: Exp6 결과 시각화 설계 문서 (v6_0419_exp6_figures_design.md)

  • 작성일: 2026-04-19
  • 대상 실험: report/version6/exp-expert/v6_0419_exp6_figures_design.md
  • 근거 원보고서: report/version6/lab-leader/v6_0415_exp6_final_report.md
  • 검토자: exp-critic
  • 종합 판정: REVISE REQUIRED

요약 (Executive Summary)

v7 단계 0.5 Smoke 분석 infrastructure 적대적 검토

Source: report/version7/exp-critic/v7_stage05_smoke_infra_review.md

v7 Stage 0.5 Smoke Infrastructure — 적대적 검토 보고서

요약 (Executive Summary)

exp-expert는 단계 0.5 infrastructure 3종 (gate_criteria.md, smoke_analysis.py, v6_baseline_reference.md)을 제출하며 "dry-run의 FAIL은 모두 예상된 failure이므로 실전 smoke에서는 작동할 것"이라 주장한다. 이 주장은 검증되지 않은 기대이며, 본 검토는 다음 구조적 약점을 확인했다:

  • CRITICAL: 병렬 작업 중인 v7_runner.py가 Gate 2/6이 요구하는 param (vq_input_unit, dlinear_output_unit, train_data_hash*, dlinear/vq_scaler_space_signature) 을 로깅하지 않는다. smoke_analysis의 Gate 2는 silent skip, Gate 6는 ERROR 상태로 smoke 통과 차단이 될 가능성이 높다.
  • CRITICAL: Gate 1 dry-run FAIL은 "prereg 대상이라 당연"이 아니라 param key naming 불일치 (definition_hash vs pape_definition_hash). 실제로 prereg 스크립트는 해시 param을 로깅하고 있다 (line 483). smoke_analysis의 query key와 prereg 스크립트 convention이 다르다.
  • MAJOR: --dry-run CLI 플래그가 parser에는 선언됐으나 run_analysis에서 참조되지 않는다 (dead arg). 실전 동작과 dry-run 동작이 코드상 구분되지 않는다.
  • MAJOR: smoke_analysis.py의 PASS 경로 unit test 전무. 합성 MLflow run 기반 end-to-end 테스트 없이 "실전에서 작동할 것"이라는 주장은 근거 없음.
  • MAJOR: Gate 4 SKIPPED → 실전에서 FAIL로 격상되지 않음. 도구가 "조용히 합격" 처리하는 경로 존재.

실험 비판 보고서: FeDPM MVP Phase 1 (V1 Vanilla FeDPM)

Source: report/version6/exp-critic/v6_0415_exp6_fedpm_phase1_review.md

실험 비판 보고서: FeDPM MVP Phase 1 (V1 Vanilla FeDPM)

작성일: 2026-04-15 대상 실험: experiments/distillation/v6_0415_fedpm_mvp.py (Phase 1, 3회 실행) 설계서: report/version6/lab-leader/v6_0415_exp6_design.md 종합 판정: REJECT -- 구조적 구현 오류 및 실험 공정성 문제로 결과 신뢰 불가


요약 (Executive Summary)

Exp6 3-Seed 반복 및 MSE 등가 검증 보고서

Source: report/version6/exp-expert/v6_0415_exp6_3seed_mse_equiv.md

Exp6 3-Seed 반복 및 MSE 등가 검증 보고서

  • 실험: FeDPM Phase 2 통계적 유의성 검증
  • 날짜: 2026-04-15
  • 스크립트: experiments/distillation/v6_0415_fedpm_original.py

1. 3-Seed 반복 실험 (alpha=2.0, beta=2.0)

목적

Phase 2 최적 설정(alpha=2.0, beta=2.0)의 결과가 seed에 의존적인지 확인.

실험6 Phase 1 중간 리뷰 — FeDPM Codebook MVP

Source: report/version6/exp-expert/v6_0415_exp6_phase1_interim.md

실험6 Phase 1 중간 리뷰: FeDPM Codebook MVP

1. 실험 개요

항목 내용
목표 FeDPM Codebook MVP — 연합학습 가능성 + 피크 성능 확인
핵심 가설 (H6-1) Vanilla FeDPM(V1)은 FedAvg+DLinear(B1)과 동등하거나 낮은 MSE를 달성한다
판정 기준 V1 mean MSE ≤ B1 mean MSE
설계서 report/version6/lab-leader/v6_0415_exp6_design.md
데이터 EC50 중 5가구 (Apt6, Apt15, Apt30, Apt51, Apt88), seq_len=96, pred_len=24
날짜 2026-04-15