콘텐츠로 이동

v7 카테고리

v7 버전 전체 13건. 섹션별로 필터링하거나, 아래 자동 생성된 포스트 목록(날짜 역순)을 확인하세요.

섹션 필터

v7 전체 (13) exp-expert (8) exp-critic (3) reporter (2)

v7 Peak-Aware FL Clean Restart — 최종(Closure) 보고서

Source: report/version7/reporter/v7-final_최종보고서.md

v7 Peak-Aware FL Clean Restart — 최종(Closure) 보고서

본 보고서는 2026-04-19 ADR-007로 착수되어 2026-04-20 ADR-008로 공식 이양된 v7 phase 전체 궤적을 하나의 closure 문서로 정리한다. 중간 보고서(v7_stage0_stage05_interim_report.md, draft)가 Stage 0 + Stage 0.5까지를 다뤘고, 그 뒤 수행된 A3 발산 진단 ablation(A1/A2/A4/V1/V2/V3) 이 v8 전환의 직접 근거가 되었다. 본 최종본은 이 전 범위를 포괄하며, v7 관련 신규 보고서는 이후 작성되지 않는다.


§0 Executive Summary

0.1 비전문가용 한 문단 요약

v7은 발표자료 제출을 목표로 "peak-aware 연합학습이 baseline과 시계열 파운데이션 모델 대비 우수하다"는 초록을 숫자로 검증하기 위한 clean-restart phase였다. 결과는 조기 종결. Stage 0.5 smoke에서 핵심 cell A3("full proposed")가 3 seed 모두 학습 중 val loss가 오히려 증가하는 현상을 확인했고, 후속 진단 ablation 결과 VQ를 포함한 모든 cell(A2/A3/A4/V1~V3)이 B0 local baseline(PAPE 52.3)보다 악화되는 반면 VQ를 제거한 A1만이 PAPE 47.1로 baseline 수준에 근접했다. 원인은 peak-loss도 DLinear residual도 아니라 v7 runner가 FedPM의 VQ 기본 모듈만 import하고 서버 정렬(MemoryAlignmentServer)과 RESET 기법을 연결하지 않은 구현 결함으로 규명되었다. v7은 여기서 멈추고 ADR-008로 v8 VQ Methodology Rescue phase에 구현 결함 수정 책임을 이양했다. (v8은 그 뒤 2026-04-21에 별도 실패로 closure되었으며 본 보고서 범위 밖)

v7 실험 프로세스 재설계 — Vertical Slice Smoke Test (단계 0.5) + Fail-Fast Gates

Source: report/version7/exp-expert/v7_0419_process_redesign_with_smoke_test.md

v7 실험 프로세스 재설계 (Smoke Test + Fail-Fast)

0. 요약 (Executive Summary)

exp-critic 적대적 검토 결과 REJECT (현 6단계 그대로)단계 0.5 Vertical Slice Smoke Test 삽입 시 CONDITIONAL PASS. 본 문서는 5건의 Critical 사각지대(silent NaN, PAPE dual definition, scaler leakage, figure 비재현성, paired seed 깨짐)를 단계 0.5 + per-run fail-fast hook + 단계 1 early checkpoint 의 3-layer 안전망으로 차단한 재설계안.

추가 비용: +1.5h (총 ≈26.5h, 2~3일). 회피 시나리오: 6h 재실행 + Apt 5가구 silent leak 감지 지연 (ROI 4~10×).


v7 단계 0 사전 등록 산출물 적대적 검토

Source: report/version7/exp-critic/v7_0419_stage0_preregistration_review.md

v7 단계 0 사전 등록 산출물 적대적 검토

종합 판정: CONDITIONAL REJECT

요약: 산출 수치 자체는 MLflow·JSON·스크립트 로직 수준에서 재현 가능하며, A1 G3/G4/G5의 블록 선택 결정화 규칙, A3 Apt88 argmax, A2 accepted 4 run 계산은 기록된 파이프라인대로 실행 시 동일하게 나온다. 그러나 이 산출물이 표방하는 "단계 1~4 모든 PAPE/HR 계산의 assertion 기준선, 코드 경로 drift 차단의 단일 진실"이라는 기능을 현 상태에서는 수행하지 못한다. 치명적 결함 2건 (§C1 정의 해시 알고리즘·payload 이중화, §C2 Gate 1 assertion 함수 불일치)은 단계 0.5 smoke 진입 전에 반드시 재작업해야 하며, 그 전까지는 "사전 등록 완료"라 주장할 수 없다. 추가로 A2 threshold는 실질적으로 track-e-tier0 3-4 run의 2-epoch prototype loss에만 근거한다는 심각한 대표성 결함이 있어, 단계 1~4 어떤 run도 이 threshold를 실제 발동시키지 못할 위험이 크다.


치명적 문제 (Critical Issues)

v7 Stage 0.5 Gate 5 Threshold Bifurcation — Adversarial Review

Source: report/version7/exp-critic/v7_stage05_gate5_threshold_review.md

v7 Stage 0.5 Gate 5 Threshold Bifurcation — Adversarial Review

종합 판정

REJECT — 단계 1 진입 HOLD.

exp-expert 권고는 단계 1 지연 회피라는 정당한 운영 목표를 갖지만, (a) 사용자 요구 맥락 자체에 사실 오류가 있고(§포인트 2), (b) 권고된 smoke threshold 1.05는 Gate 5를 수렴 검증 기능에서 사실상 분리시키며, (c) "30분 재해석" 서사가 실제 workload를 숨기고, (d) 단계 1에서 동일 FAIL 재현 위험이 남는다.

v7 Peak-Aware FL — 단계 0 사전 등록 v2 (critic-revised)

Source: report/version7/exp-expert/v7_0419_stage0_preregistration_v2.md

v7 단계 0 사전 등록 v2 — critic CONDITIONAL REJECT 대응

본 보고서는 exp-critic v7_0419_stage0_preregistration_review.md의 CONDITIONAL REJECT에 대한 revision이다. 모든 P0 (C1~C3, M1~M7)를 단일 cycle에서 해소한다.

  • 실행 스크립트: experiments/federated/v7_0419_stage0_preregistration.py (v2)
  • 공용 모듈: src/peak_analysis/v7/metrics.py (신규 — critic C1/C2 대응)
  • MLflow 새 run: 4659d778c5e9460aaa1c5b928508d9a9 (v1 08716ec9…는 superseded)
  • 산출 JSON: outputs/v7_stage0/stage0_summary.json (덮어쓰기)
  • Frozen artifacts: outputs/v7_stage0/golden_tensors/{G3,G4,G5}_y_{true,pred}.npy
  • 새 정의 해시: 8be2bd2f691deed0 (v1 1c4acef8a235 폐기)

v7 Peak-Aware FL — 단계 0 사전 등록 결과

Source: report/version7/exp-expert/v7_0419_stage0_preregistration.md

v7 단계 0 사전 등록 결과 (A1, A2, A3)

본 보고서는 v7 Peak-Aware FL 발표 캠페인의 D+0 P0 산출물 3종 결과를 담는다. 단계 0.5 smoke test 진입의 사전조건이며, 본 문서에 기록된 값은 단계 1~4 전 실험의 assertion 기준선(= override 금지)이다.

  • 실행 스크립트: experiments/federated/v7_0419_stage0_preregistration.py
  • MLflow 실험: v7-stage0-preregistration (run 08716ec90ec94c5c901900bb6cc4dc10)
  • 산출 JSON: outputs/v7_stage0/stage0_summary.json
  • 산출 CSV (A2 per-run): outputs/v7_stage0/v6_loss_distribution.csv
  • 재현 명령: uv run python experiments/federated/v7_0419_stage0_preregistration.py
  • 공통 설정: RANDOM_SEED=42, SEQ_LEN=96, PRED_LEN=24, split=(0.7, 0.1, 0.2), Q=90, HR K=12
  • 정의 해시: 1c4acef8a235 (PAPE/HR 정의 drift 탐지용)

v7_runner.py MLflow Param 추가 로깅 — Engineer Contract (Stage 0.5)

Source: report/version7/exp-expert/v7_stage05_engineer_contract.md

Engineer Contract — v7_runner.py 신규 MLflow Param 로깅

본 문서는 critic C2 대응으로 v7_runner.py에 추가해야 할 MLflow param 명세다. smoke_analysis.py의 Gate 2 / Gate 6 은 이 param들을 엄격하게 요구한다 (cycle 2/2에서 soft fallback 제거 완료). 누락 시 Gate 2/6 FAIL.

맥락

  • smoke_analysis.py 측 수정은 완료: Gate 2 WARNING→FAIL, Gate 6 ERROR→FAIL.
  • v7_runner.py 측은 contract 맞추기만 하면 됨.
  • 기존 scaler_space_signature (unified) 은 backward compatibility 위해 유지 가능.

v7 단계 0.5 — 6 Critical Gates 판정 기준 (자동 평가 사양)

Source: report/version7/exp-expert/v7_stage05_gate_criteria.md

v7 Stage 0.5 — Gate 1~6 Pass/Fail 판정 기준

Design spec track_v7_design.md §3의 6 Critical Gate가 smoke 12 runs (3 cells × 2 households × 2 seeds, 또는 smoke plan 확정 후의 실제 매트릭스)에 대해 어떻게 자동 평가되는지 확정.

공통 원칙 - 데이터 소스: mlflow.search_runs() 직접 query. CSV 재사용 금지 (design §2.5). - 공용 PAPE/HR 함수: peak_analysis.v7.metrics (definition_hash() = 8be2bd2f691deed0). - atol: golden tensor 1e-6 (공용 모듈 고정). - Gate 간 판정 충돌 시 §7 우선순위 적용. - 12 runs 중 어느 하나라도 mlflow.info.status != "FINISHED"이면 Gate 평가 불가 → ERROR 상태 (FAIL 아님; 수동 개입).

v7 Stage 0.5 Gate 5 Redesign — Engineer Implementation Contract

Source: report/version7/exp-expert/v7_stage05_gate5_engineer_contract.md

v7 Gate 5 — Engineer Contract

exp-expert가 v6 n=22 back-test로 empirical cutoff를 도출하고 9-run smoke preview를 검증한 결과(보고서 v7_stage05_gate5_redesign_v2.md), Gate 5 구현을 아래 계약대로 전환해 달라.

1. 수정 대상 (1 파일)

experiments/federated/v7_stage05_smoke_analysis.py

1.1 evaluate_gate5 함수 전면 재작성

v7 Stage 0.5 Gate 5 Convergence Metric — Redesign v2 (REJECT 대응)

Source: report/version7/exp-expert/v7_stage05_gate5_redesign_v2.md

v7 Stage 0.5 Gate 5 — Redesign v2

0. 요약

항목
v6 back-test 표본 n = 22 converged runs (MIN_STEPS≥10, 14개 experiment 스캔)
기존 metric moving/initial 의 v6 false-positive rate 1.0 (22/22 FAIL — 수렴한 v6 run 전부 FAIL)
새 metric rel_decrease = (mean(val[:3]) − mean(val[-3:])) / mean(val[:3])
v6 분포 (n=22) p05 = −0.0005, p10 = 0.0017, p50 = 0.0350, p95 = 0.0949
PASS cutoff rel_decrease ≥ 0.0017 (v6 P10 → TPR 86.4%)
WARNING cutoff 0.0 ≤ rel_decrease < 0.0017 (v6 P05~P10 → TPR 90.9% 합산)
FAIL cutoff rel_decrease < 0.0 (net increase — 수렴 방향 반대)
9-run smoke 재평가 PASS 5 / WARNING 1 / FAIL 3 / ERROR 0
Stage 1 권고 HOLD (FAIL 3개 = A3 cell 전 seed 발산 신호)