콘텐츠로 이동

v10 exp-critic

v10-04 E1 NBEATSx + DecompCB Adversarial Critique

Source: report/version10/exp-critic/v10-04_E1_NBEATSx_DecompCB_critique.md

v10-04 E1 NBEATSx + DecompCB — Adversarial Critique

0. 종합 판정

CONDITIONAL PASS — 보고서는 단일 seed 한계와 복수 측정 한계를 정직하게 자기 인정했고, 점추정 사실 기록 원칙(memory v9_06 lessons)을 대체로 준수했다. 그러나 (a) E1_simple ablation 결과가 expert 보고서에 통합되지 않은 critical omission, (b) "trend CB anchor 부재" 결론을 trend CB의 inherent sparsity 대안 가설로 충분히 검토하지 않은 over-claim, (c) E1_simple과 E1 main의 차이를 "C1+C2+C3+M1 주입사항"이라는 단일 부호로 압축하는 사용자 컨텍스트의 검증 미흡, (d) 이 정보들 없이는 "Watch → Fail 경향" 판정이 견고하지 않음 — 이 4건이 본 보고서가 reporter 단계로 진입하기 전 필수 수정 사항이다.

본 critique는 보고서가 "VQ가 잠재력 있다" 변호를 하지 않은 점을 인정하나, 동시에 반대 방향의 over-claim ("anchor 부재") 도 단일 seed 점추정에서는 통계 비유의의 정직성과 일치하지 않음을 지적한다.


v10-04 E2 NHITS + FreqBand — 적대적 검토

Source: report/version10/exp-critic/v10-04_E2_NHITS_FreqBand_critique.md

v10-04 E2 NHITS + FreqBandCB — 적대적 검토 (exp-critic)

0. Executive Summary

  • 종합 판정: CONDITIONAL PASS. expert 의 주요 발견 (평탄화 collapse, +40 PAPE 의 4 후보, H10-1 강한 기각) 은 MLflow run 3d377754 의 npy/메트릭으로 직접 재계산하여 수치적으로 정확함을 확인. 그러나 (a) plateau vs divergence 통계, (b) per-household 분산 disclosure, (c) E2_simple ablation 결과 통합 미반영, (d) "e2_y_pred.npy" 의 path 표기 오류 등 4 개 항목에서 보고서가 약하거나 사실관계가 일부 어긋난다.
  • expert 의 핵심 진단 (평탄화 collapse 가 +40 PAPE 의 단일 가장 큰 직접 원인) 은 유지. 다만 결론 (E2 drop, v11 재설계) 은 사용자가 본 critic 에 추가 컨텍스트로 제공한 E2_simple ablation (PAPE 68.35, MSE 1.40) 를 반영하지 못한 상태. simple 결과는 expert 의 4 후보 중 #2 (VQ_high×2) / #3 (γ=0.85 비대칭) 의 부분 기여를 지지하지만, simple 도 baseline B3=44.66 대비 +23.69 PAPE 악화이고, simple 의 std_ratio=0.066 (cf. 본 실행 0.61) 으로 평탄화가 더 심각. 즉 "VQ_high×2 와 γ=0.85 만 제거해도 평탄화는 사라지지 않으며, 오히려 다른 형태로 collapse 한다." → expert 의 "v11 STFT/wavelet 재설계" 권고는 여전히 유효, 단 "simple 로 돌아가면 회복" 이라는 약한 변호는 거부되어야 함.
  • 검증 결과 요약 표:
항목 expert 주장 critic 재계산 판정
y_pred std / y_true std 0.45 / 0.73 = 0.62 0.4464 / 0.7274 = 0.6137 PASS (정확)
peak_pred / peak_true 0.31 / 2.01 = 0.15 0.3102 / 2.0110 = 0.1543 PASS (정확)
corr(y_true, y_pred) 0.411 0.4113 PASS (정확)
평탄화 단일 점추정 50가구 평균 per-household ratio mean=0.147, std=0.232, IQR=[-0.002, 0.349], 50가구 중 24개 ratio<0.20 CONCERN — outlier 의존이 아닌 broad-based collapse, 그러나 가구별 분산 본문 미공개
Apt51 outlier 영향 미언급 per-household ratio std 0.23 (본 실행 데이터), Apt51 집계 자체 검증 불가 (test set 가구 mapping 미보존) CONCERN — 가구 ID 매핑 보존 부재
best_round=19 plateau round 10-19 평균 339.4 vs 20-29 평균 333.5 (5.9, 1.7%) 335.74 vs 335.07 (-0.67, -0.20%) REJECT (수치 오류) — 그러나 plateau 결론 자체는 더 강하게 지지
Welch t-test (10-19 vs 20-29) 미실시 t=0.13, p=0.90; Mann-Whitney p=0.91 NEW — plateau 통계적 강하게 지지
MSE 함정 일반화 "MSE-only 보고 금지" E1 (PAPE 55.01, MSE 0.81) / E2 (84.97/0.48) / E3 (49.67, MSE 미확인) — E2 의 평탄화-MSE 함정은 E2 unique 패턴 (다른 모델은 MSE 도 무너짐) CONCERN — 권고는 정확하나 "어느 모델이 함정인가" 의 판별식 부재
H10-1 강한 FAIL high CB util 6.47% / PAPE 84.97 round-mean util high=0.0654 (round 0-29), best round=0.0588 → 6.5% PASS (정확)
cb_util_{band}_{peak\|nonpeak} 분리 로깅 미구현 (engineer 누락) metrics 폴더에 codebook_utilization_{name} 만 존재, peak/nonpeak split 부재 확인 PASS (사실) — 단 expert 가 우회 분석 (peak window 별도 계산) 도 시도하지 않음
E2_simple ablation 통합 보고서 작성 시점 미확보 simple PAPE 68.35, MSE 1.40, std_ratio 0.066, best_round=0 MISSING — 보고서 revision 1 에서 통합 필수

v10-04 E3 SCINet+RQ 적대적 검토

Source: report/version10/exp-critic/v10-04_E3_SCINet_RQ_critique.md

v10-04: E3 SCINet+RQ 보고서 적대적 검토

본 검토는 expert 보고서가 round 16 시점 잠정 작성된 후, round 30 종료 (FINISHED, end_time 2026-04-25 17:17:14 KST)가 확인된 시점에서 수행한다. 잠정 결과로 작성한 정성적 framing 일부는 final 결과로 갱신해야 하며, 일부 인과 주장은 ablation 설계 결함 때문에 약화되어야 한다.


0. Executive Summary

항목 판정
잠정 보고 작성 자체 (round 16 시점) PASS — Risk A1–A7 사전 disclosure 양호, plateau 외삽이 final과 부합
H10-3 conjunctive 적용 (util AND mse) PASSOR/AND 표기 혼선 1건 외에는 정확
L1 dead 3원인 교집합 주장 CONCERN — A·B·C가 개별로 입증되지 않은 채 "교집합" 주장
restart_dead_codes() 미구현 발견 PASS — 코드 검증 일치, 그러나 영향 추정 부재
β=0.375 효과 inconclusive 자기인정 PASS — H_β / H_cascade confound 정직히 명시
simple ablation 해석 ("C1 K-means++ + C2 dead restart 효과") REJECT — C2는 E3/E3_simple 양쪽 모두 작동 안 함, 이를 효과로 귀속 불가
HR@1 baseline 우위 주장 (사용자 컨텍스트) REJECT 근거 — B3=17.14, B4=18.57은 v10 FL no-VQ baseline이 아니며 Phase1 NF Local 베이스라인 수치
"wait 권고" 사후 평가 PASS — 추가 14 round에서 best 갱신 0건 (round 4 plateau 확정), 그러나 산출물 (a) test 메트릭 (b) artifact 가치 회수됨
"v10 4 모델 중 상대 안정" 강조 CONCERN — relative ranking을 H10-3 partial pass처럼 읽힐 위험 (보고서가 §3.4에서 한 번 명시했지만 §0/§9에서 반복 강조)
잠정→final 갱신 필요성 REQUIRED — §10 갱신 사항 미반영 상태