콘텐츠로 이동

v7 exp-critic

v7 단계 0 사전 등록 산출물 적대적 검토

Source: report/version7/exp-critic/v7_0419_stage0_preregistration_review.md

v7 단계 0 사전 등록 산출물 적대적 검토

종합 판정: CONDITIONAL REJECT

요약: 산출 수치 자체는 MLflow·JSON·스크립트 로직 수준에서 재현 가능하며, A1 G3/G4/G5의 블록 선택 결정화 규칙, A3 Apt88 argmax, A2 accepted 4 run 계산은 기록된 파이프라인대로 실행 시 동일하게 나온다. 그러나 이 산출물이 표방하는 "단계 1~4 모든 PAPE/HR 계산의 assertion 기준선, 코드 경로 drift 차단의 단일 진실"이라는 기능을 현 상태에서는 수행하지 못한다. 치명적 결함 2건 (§C1 정의 해시 알고리즘·payload 이중화, §C2 Gate 1 assertion 함수 불일치)은 단계 0.5 smoke 진입 전에 반드시 재작업해야 하며, 그 전까지는 "사전 등록 완료"라 주장할 수 없다. 추가로 A2 threshold는 실질적으로 track-e-tier0 3-4 run의 2-epoch prototype loss에만 근거한다는 심각한 대표성 결함이 있어, 단계 1~4 어떤 run도 이 threshold를 실제 발동시키지 못할 위험이 크다.


치명적 문제 (Critical Issues)

v7 Stage 0.5 Gate 5 Threshold Bifurcation — Adversarial Review

Source: report/version7/exp-critic/v7_stage05_gate5_threshold_review.md

v7 Stage 0.5 Gate 5 Threshold Bifurcation — Adversarial Review

종합 판정

REJECT — 단계 1 진입 HOLD.

exp-expert 권고는 단계 1 지연 회피라는 정당한 운영 목표를 갖지만, (a) 사용자 요구 맥락 자체에 사실 오류가 있고(§포인트 2), (b) 권고된 smoke threshold 1.05는 Gate 5를 수렴 검증 기능에서 사실상 분리시키며, (c) "30분 재해석" 서사가 실제 workload를 숨기고, (d) 단계 1에서 동일 FAIL 재현 위험이 남는다.

v7 단계 0.5 Smoke 분석 infrastructure 적대적 검토

Source: report/version7/exp-critic/v7_stage05_smoke_infra_review.md

v7 Stage 0.5 Smoke Infrastructure — 적대적 검토 보고서

요약 (Executive Summary)

exp-expert는 단계 0.5 infrastructure 3종 (gate_criteria.md, smoke_analysis.py, v6_baseline_reference.md)을 제출하며 "dry-run의 FAIL은 모두 예상된 failure이므로 실전 smoke에서는 작동할 것"이라 주장한다. 이 주장은 검증되지 않은 기대이며, 본 검토는 다음 구조적 약점을 확인했다:

  • CRITICAL: 병렬 작업 중인 v7_runner.py가 Gate 2/6이 요구하는 param (vq_input_unit, dlinear_output_unit, train_data_hash*, dlinear/vq_scaler_space_signature) 을 로깅하지 않는다. smoke_analysis의 Gate 2는 silent skip, Gate 6는 ERROR 상태로 smoke 통과 차단이 될 가능성이 높다.
  • CRITICAL: Gate 1 dry-run FAIL은 "prereg 대상이라 당연"이 아니라 param key naming 불일치 (definition_hash vs pape_definition_hash). 실제로 prereg 스크립트는 해시 param을 로깅하고 있다 (line 483). smoke_analysis의 query key와 prereg 스크립트 convention이 다르다.
  • MAJOR: --dry-run CLI 플래그가 parser에는 선언됐으나 run_analysis에서 참조되지 않는다 (dead arg). 실전 동작과 dry-run 동작이 코드상 구분되지 않는다.
  • MAJOR: smoke_analysis.py의 PASS 경로 unit test 전무. 합성 MLflow run 기반 end-to-end 테스트 없이 "실전에서 작동할 것"이라는 주장은 근거 없음.
  • MAJOR: Gate 4 SKIPPED → 실전에서 FAIL로 격상되지 않음. 도구가 "조용히 합격" 처리하는 경로 존재.