v10-04 E2 NHITS + FreqBandCB — 적대적 검토 (exp-critic)¶
0. Executive Summary¶
- 종합 판정: CONDITIONAL PASS. expert 의 주요 발견 (평탄화 collapse, +40 PAPE 의 4 후보, H10-1 강한 기각) 은 MLflow run
3d377754의 npy/메트릭으로 직접 재계산하여 수치적으로 정확함을 확인. 그러나 (a) plateau vs divergence 통계, (b) per-household 분산 disclosure, (c) E2_simple ablation 결과 통합 미반영, (d) "e2_y_pred.npy" 의 path 표기 오류 등 4 개 항목에서 보고서가 약하거나 사실관계가 일부 어긋난다. - expert 의 핵심 진단 (평탄화 collapse 가 +40 PAPE 의 단일 가장 큰 직접 원인) 은 유지. 다만 결론 (E2 drop, v11 재설계) 은 사용자가 본 critic 에 추가 컨텍스트로 제공한 E2_simple ablation (PAPE 68.35, MSE 1.40) 를 반영하지 못한 상태. simple 결과는 expert 의 4 후보 중 #2 (VQ_high×2) / #3 (γ=0.85 비대칭) 의 부분 기여를 지지하지만, simple 도 baseline B3=44.66 대비 +23.69 PAPE 악화이고, simple 의 std_ratio=0.066 (cf. 본 실행 0.61) 으로 평탄화가 더 심각. 즉 "VQ_high×2 와 γ=0.85 만 제거해도 평탄화는 사라지지 않으며, 오히려 다른 형태로 collapse 한다." → expert 의 "v11 STFT/wavelet 재설계" 권고는 여전히 유효, 단 "simple 로 돌아가면 회복" 이라는 약한 변호는 거부되어야 함.
- 검증 결과 요약 표:
| 항목 | expert 주장 | critic 재계산 | 판정 |
|---|---|---|---|
| y_pred std / y_true std | 0.45 / 0.73 = 0.62 | 0.4464 / 0.7274 = 0.6137 | PASS (정확) |
| peak_pred / peak_true | 0.31 / 2.01 = 0.15 | 0.3102 / 2.0110 = 0.1543 | PASS (정확) |
| corr(y_true, y_pred) | 0.411 | 0.4113 | PASS (정확) |
| 평탄화 단일 점추정 | 50가구 평균 | per-household ratio mean=0.147, std=0.232, IQR=[-0.002, 0.349], 50가구 중 24개 ratio<0.20 | CONCERN — outlier 의존이 아닌 broad-based collapse, 그러나 가구별 분산 본문 미공개 |
| Apt51 outlier 영향 | 미언급 | per-household ratio std 0.23 (본 실행 데이터), Apt51 집계 자체 검증 불가 (test set 가구 mapping 미보존) | CONCERN — 가구 ID 매핑 보존 부재 |
| best_round=19 plateau | round 10-19 평균 339.4 vs 20-29 평균 333.5 (5.9, 1.7%) | 335.74 vs 335.07 (-0.67, -0.20%) | REJECT (수치 오류) — 그러나 plateau 결론 자체는 더 강하게 지지 |
| Welch t-test (10-19 vs 20-29) | 미실시 | t=0.13, p=0.90; Mann-Whitney p=0.91 | NEW — plateau 통계적 강하게 지지 |
| MSE 함정 일반화 | "MSE-only 보고 금지" | E1 (PAPE 55.01, MSE 0.81) / E2 (84.97/0.48) / E3 (49.67, MSE 미확인) — E2 의 평탄화-MSE 함정은 E2 unique 패턴 (다른 모델은 MSE 도 무너짐) | CONCERN — 권고는 정확하나 "어느 모델이 함정인가" 의 판별식 부재 |
| H10-1 강한 FAIL | high CB util 6.47% / PAPE 84.97 | round-mean util high=0.0654 (round 0-29), best round=0.0588 → 6.5% | PASS (정확) |
cb_util_{band}_{peak\|nonpeak} 분리 로깅 |
미구현 (engineer 누락) | metrics 폴더에 codebook_utilization_{name} 만 존재, peak/nonpeak split 부재 확인 |
PASS (사실) — 단 expert 가 우회 분석 (peak window 별도 계산) 도 시도하지 않음 |
| E2_simple ablation 통합 | 보고서 작성 시점 미확보 | simple PAPE 68.35, MSE 1.40, std_ratio 0.066, best_round=0 | MISSING — 보고서 revision 1 에서 통합 필수 |
1. 검토 항목별 PASS / CONCERN / REJECT¶
1.1 "y_pred std 0.45 vs y_true std 0.73 (62% 축소)" 평탄화 주장 — CONCERN¶
검증 (npy 직접 재계산, n=1657 windows): - y_true std = 0.7274, y_pred std = 0.4464 → ratio 0.6137 ≈ expert 의 0.62. 수치 정확. - 그러나 expert 는 50가구 aggregate std 를 사용. 이는 가구간 분산 차이를 마스킹.
가구별 breakdown (test windows 1657 / 50 = 33 windows 가정 분할):
| 통계 | per-household std_ratio (y_pred std / y_true std) |
|---|---|
| mean | 0.267 |
| std | 0.148 |
| min | 0.056 |
| max | 0.625 |
| 5% / 25% / median / 75% / 95% | 0.080 / 0.150 / 0.259 / 0.349 / 0.536 |
관찰: 가구별로 std_ratio 가 0.06-0.63 의 광범위 분포. 일부 가구는 거의 완전 평탄 (ratio 0.06), 일부는 ratio 0.5+ 로 부분적 진폭 보존. expert 의 "62%" 는 가구간 가중평균이며 가구별 진폭 보존도가 5-10× 차이남 — 이를 본문에서 disclosure 하지 않음.
Apt51 outlier 의 영향: test set 가구 ordering 이 MLflow artifact 에 보존되지 않아 직접 식별 불가. 그러나 가구별 ratio 분포 std 0.148 / IQR 0.20 이 "단일 outlier 가 평균을 끌어내림" 시나리오 (예: 1 가구만 ratio=0 이고 49가구는 ratio=0.62) 와 불일치. 가구의 약 50% (24/50) 가 ratio < 0.20 으로 broad-based collapse 가 정확한 진단.
판정: 평탄화 주장 자체는 PASS, 그러나 "가구간 분산 disclosure 없이 단일 비율로 보고한 점은 v9-06 lesson (Apt51 cherry-picking 검증) 의 형식적 위반". revision 1 에서 per-household breakdown 표 추가 권고.
1.2 "peak_pred 0.31 vs peak_true 2.01 (15% only)" 메트릭 — CONCERN (denominator 정의 명료화 필요)¶
검증 (npy 직접 재계산):
- peak_true = y_true.max(axis=1).mean() = 2.0110 (window 별 max 후 평균).
- peak_pred = y_pred.max(axis=1).mean() = 0.3102.
- 비율 0.1543 ≈ expert 의 0.15. 수치 정확.
denominator 의 어떤 정의?: expert 는 "window 별 max" 를 채택했고, 이는 합리적이지만 다른 정의도 가능: - (A) window 별 max 후 평균 (expert 채택): peak_true=2.011, peak_pred=0.310 → 0.154. ← 보고 - (B) true peak 시점에서의 prediction: pred_at_argmax(y_true) mean = 0.252 → 0.252/2.011 = 0.125. 본 critic 추가 측정. - (C) overall max 의 비교: y_true.max()=3.96, y_pred.max()=1.29 → 0.326. 단일 outlier window dominated.
세 정의 모두 평탄화를 일관되게 보여주나 (15%, 12%, 33%), expert 보고서는 (A) 만 채택 후 정의를 명시하지 않음. v9-06 lesson denominator manipulation 의 위험은 "유리한 분모 선택" 인데, 본 case 는 그 반대 (가장 favorable 한 (A) 채택). 그러나 denominator 정의를 §1.2 또는 §3.3 에서 명시하지 않은 형식 결함.
판정: 수치는 PASS, 정의 명시 누락은 CONCERN. revision 1 에서 §3.3 에 "peak_true ≡ y_true window-wise max 의 50가구×N window 평균" 1줄 정의 추가 권고. 추가로 정의 (B) 결과 (12.5%) 도 footnote 에 병기하면 "denominator 견고성 (robustness)" 보강.
1.3 "MSE 함정" 권고의 적용 범위 — CONCERN¶
expert 권고: "MSE-only 보고 금지" (§3.3, §8.4).
검증: 본 critic 은 v10 4 E* 의 MSE-PAPE pair 를 비교:
| ID | PAPE | MSE | MSE 절대값 | "함정" 패턴? |
|---|---|---|---|---|
| E1 (NBEATSx) | 55.01 | 0.8074 | 높음 | ✗ 함정 아님 (PAPE/MSE 동시 악화) |
| E2 (NHITS+FreqBand) | 84.97 | 0.4816 | 낮음 | ✓ 함정 (PAPE 최악, MSE 최선) |
| E3 (SCINet+RQ) | 49.67 | (확인 필요) | — | 확인 필요 |
| E4 (Crossformer+PQ) | 67.59 | 0.7901 | 높음 | ✗ 함정 아님 |
| B3 (NHITS noVQ) | 44.66 | 0.7732 | 중간 | reference |
E2 만 unique 한 "MSE 함정" 패턴. 즉 평탄화 collapse 가 MSE 를 좋아 보이게 만드는 메커니즘은 E2 디자인 specific 이지 v10 모델 일반론이 아님. expert 의 "MSE-only 보고 금지" 는 reporter 단계 narrative 가드로는 정확하지만, 보고서 §3.3 의 일반론적 표현은 E2 만의 패턴이라는 사실 명시가 부족.
판정: 권고 자체 PASS, 적용 범위 명시 부족은 CONCERN. revision 1 에서 "본 함정은 E2 평탄화 collapse 에 specific 이며 E1/E4 는 PAPE/MSE 동시 악화로 함정 패턴 없음" 1문장 추가 권고.
1.4 +40 PAPE 원인 4 후보의 falsifiability — CONCERN (E2_simple 결과 통합 필수)¶
expert 가 §3.3 에 enumerate 한 4 후보: 1. 3-stack additive 합성 + 동시 collapse 2. VQ_high_loss × 2 의 의도 역전 3. per-band γ=0.85 (high) over-aggregation 4. K-means++ init → round 1 cliff
E2_simple ablation 결과 (sample run 621d889c2f61483ba3222f9710b10d36, params: vq_strategy=FreqBandCBSimple, kmeans_init=False, peak_alpha=2.0):
- test_pape = 68.35 (E2 본 84.97 대비 -16.62%, baseline B3 44.66 대비 +23.69%)
- test_hr1 = 12.31 (E2 본 13.22 대비 -0.91, B3 17.14 대비 -4.83)
- test_mse = 1.4036 (E2 본 0.4816 대비 +0.92!! → MSE 도 악화)
- best_round = 0 (학습 진행 자체 미발생)
- y_pred std/y_true std = 0.0657 (E2 본 0.61 대비 1/10 으로 더 평탄)
- corr(y_true, y_pred) = -0.0034 (E2 본 0.411 대비 → 거의 무상관)
해석:
| 후보 | simple 에서 제거된 요인 | simple 결과 시사 | 판정 |
|---|---|---|---|
| #1 3-stack additive | 유지 | simple 도 동일 backbone — 분리 안 됨 | 분리 미완 |
| #2 VQ_high×2 | 제거 (균일 weighting) | simple 도 평탄화 (오히려 악화) → #2 단독 원인 아님 | 약하게 기각 |
| #3 γ=0.85 비대칭 | 제거 (simple 명세 추정) | simple 도 collapse → #3 단독 원인 아님 | 약하게 기각 |
| #4 K-means++ cliff | 제거 (kmeans_init=False) |
best_round=0 → 학습 자체 안 됨, K-means++ 없어도 collapse | 기각 |
결정적 관찰: simple 은 PAPE 16 좋아졌지만 MSE 3× 악화 + std_ratio 1/10 + corr 0. 즉 simple 의 PAPE 개선은 평탄화 회피로 인한 것이 아니라 더 극단적 상수 출력 (mean ≈ 1.03 균일) 으로의 collapse 가 PAPE 분모-분자 비율을 우연히 더 좋게 만드는 다른 collapse mode. simple 은 본 실행보다 더 나쁜 학습 상태 (best_round=0 = epoch 1 가까이 학습 못함).
즉: 사용자가 critic 에게 추가 컨텍스트로 제공한 "simple 이 +16 PAPE 좋아졌으므로 #2/#3 확인됨" 의 해석은 너무 약한 결론. simple 도 baseline 보다 +24 PAPE 악화 + 학습 사실상 실패이므로, "VQ_high×2 와 γ=0.85 를 빼면 회복된다" 는 결론 거부됨. 4 후보 중 어느 것도 simple ablation 으로 분리되지 못했고, simple 은 또 다른 collapse mode 를 보여줄 뿐.
판정: expert 의 4 후보 enumerate 자체는 PASS, "ablation 부재로 인과 분리 불가" 의 disclosure (§7) 도 PASS. 그러나 revision 1 에서 E2_simple 결과를 §3.3 후보 4 검증 단계로 통합 필수 — 통합 후 결론은 "simple ablation 으로도 분리 불가, 4 후보 동시 작용 의심 유지". simple 의 #2/#3 부분 지지 변호는 거부.
1.5 best_round=19 plateau vs divergence — REJECT (수치 오류) → 그러나 plateau 결론은 강하게 강화¶
expert 주장 (§3.4):
round 20–29 의 평균 val_pape 333.5 vs round 10–19 평균 339.4 — round 19 이후도 plateau 가까운 진동.
critic 재계산 (metrics/round_val_pape 직접 read):
- round 10-19 mean = 335.74 (std 12.17, expert 의 339.4 와 3.66 차이)
- round 20-29 mean = 335.07 (std 9.58, expert 의 333.5 와 1.57 차이)
- 차이 = -0.67 (-0.20%, expert 의 -5.9 / -1.7% 와 차이)
Welch t-test: t=0.13, p=0.899 Mann-Whitney U: u=48, p=0.910
판정: expert 의 수치는 잘못됨, 그러나 이는 expert 결론을 약화시키는 방향이 아니라 반대로 강화. 차이가 5.9 가 아니라 0.67 (1.7% 가 아니라 0.2%) 라면 plateau 가 더 명확. divergence 가설 (round 20-29 가 평균적으로 악화) 도 유의 기각 (p=0.90). 즉 30 round 이후도 wide plateau 가 정확한 진단.
revision 1 필수 수정: 1. §3.4 의 두 평균 수치 정정 (335.74 / 335.07). 2. Welch t-test (p=0.90) 또는 Mann-Whitney (p=0.91) 결과 명시. 통계 검정 추가가 plateau 결론을 강화함. 3. "best_round=19 의 의미" 해석은 유지 (lucky local minimum). 30 round 미수렴 결론도 유지.
1.6 "E2 drop, v11 재설계" 권고의 강도 — PASS (조정 불필요)¶
사용자 critic 컨텍스트: "simple 이 16 PAPE 좋아진 점 반영하면 조정 가능".
critic 평가: §1.4 에서 검증한 바와 같이 E2_simple 도 baseline 대비 +23.69 PAPE 악화 + MSE 3× 악화 + 학습 실패 (best_round=0) + 평탄화 더 심각. simple 은 E2 의 "변호 가능한 fallback" 이 아니라 다른 형태의 collapse. 따라서:
- "E2 (본 실행 + simple 모두) drop" 은 유지.
- v11 재설계 권고 (STFT/wavelet 명시적 분해, single-stack VQ, residual quantization) 도 유지.
- 단, v11 권고 중 "single-stack VQ (high only)" 는 simple ablation 결과로 인해 신뢰도 보정 필요 — simple 이 weighting 균일화에서도 collapse 한다는 사실은 "high only VQ" 도 같은 운명을 겪을 가능성 있음. v11 1순위 후보를 STFT/wavelet 명시적 분해 (NHITS pooling 자체를 대체) 로 격상 권고.
판정: expert 의 강한 결론 유지. 사용자 컨텍스트 ("simple 16 좋아짐") 를 변호로 활용하는 것은 거부.
1.7 cb_util_{band}_{peak|nonpeak} 분리 로깅 미구현 — PASS (engineer 누락 인정), expert 의 우회 분석 미시도는 별개 CONCERN¶
검증: mlruns/.../metrics/ 폴더 안에 codebook_utilization_low/mid/high 만 존재, _peak/_nonpeak suffix 없음. 설계서 §9.2 명세 위반.
책임 귀속: - engineer Stage 1 smoke 에서 schema 검증 누락 → 1차 책임. - exp-expert 가 우회 분석 (test set 의 npy 에서 peak window 정의 후 per-band 활성도 사후 측정) 을 시도하지 않음 → 2차 책임 (보조 증거 수집 가능했으나 누락).
우회 분석 가능성: y_true.max(axis=1) 상위 10% 를 peak window 로 정의 후, model.freq_cb 의 usage_count history 를 reload 해 per-band peak 활성도를 사후 계산할 수 있음. 단 (a) usage_count 가 round 단위로만 reset / accumulate 되었는지 (b) batch 단위 활성도가 보존되었는지 코드 확인 필요. 만약 batch 단위 activation 미보존이면 우회 분석 불가능.
판정: 엔지니어링 누락 보고는 PASS, expert 가 우회 분석 가능성을 검토조차 하지 않은 점 (보고서 §2.3 에서 "측정 자체 불가" 로 단정) 은 CONCERN. revision 1 에서 batch-level activation 보존 여부를 1줄 확인 후 시도 가능 여부 disclose 권고. 단 util 6.5% 자체가 강한 기각이라 우선순위 낮음 (expert 의 §2.3 마지막 문장도 같은 입장).
2. 추가로 발견된 문제 (expert 가 놓친 항목)¶
2.1 보고서 path 표기 오류 (Minor)¶
§3.3 에서 mlflow run/predictions/e2_y_pred.npy 표기. 실제 path: mlruns/738860791398377455/3d377754b8a54dbaafcf4ec85000e8ba/artifacts/predictions/e2_y_pred.npy. revision 1 에서 fully qualified path 또는 run_id 명시 권고 (figure_data_sourcing_non_reproducibility memory 교훈).
2.2 round 0→1 alignment cliff (§3.2) 의 단일 seed 한계 추가 명시 부재¶
§3.2 에서 K-means++ init 직후 alignment_sim 18×–20× 하락을 cliff 로 보고. 그러나 이는 단일 seed 단일 init 관찰로, K-means++ stochasticity 는 측정 불가. simple ablation 이 kmeans_init=False 임에도 best_round=0 인 사실을 고려하면, cliff 자체는 K-means++ unique 가 아닐 가능성 — 즉 round 1 cliff 는 K-means 와 무관하게 codebook 의 random init 후 첫 FedAvg aggregation 이 항상 발생시키는 일반 현상일 수 있음. 보고서 §3.3 후보 #4 의 가설 강도가 simple 결과로 인해 약화 — revision 1 에서 disclose 권고.
2.3 통신량 trade-off 표 (§4) 의 E1/E4 bytes/round 빈칸¶
§4 표에서 E1, E4 의 bytes/round 가 "확인 필요" 로 표기. v10 합본 reporter 에 인계되는 표인데 본 보고서가 단독 분석이므로 보충 의무 없음 — 다만 "v10 합본 시 reporter 가 채워야 함" 명시 권고.
2.4 H10-1 falsification 의 OR 조건 vs AND 조건 표기 미정합¶
설계서 §1.2 H10-1 falsification: PAPE ≥ 42.51 OR high-freq CB util < 50% (OR — 둘 중 하나만 위반해도 기각).
보고서 §2.1: 그대로 인용.
보고서 §2.2 검증: 두 축 모두 위반으로 "FAIL (강한 형태)" 판정.
→ falsification 이 OR 인 조건에서 두 축 모두 위반은 정의상 "강하게 기각" 이 아니라 "중복으로 기각". expert 는 "강하게 기각" 표현으로 잉여 강도를 부여 — 형식적으로는 "OR 조건 충족 — H10-1 기각" 만으로 충분. revision 1 에서 "두 축이 독립적으로 위반되어 robust 한 기각" 같은 정확한 표현으로 정정 권고. 단 결론은 동일하므로 Minor 수준.
3. 종합 verdict¶
3.1 보고서 단일 verdict: CONDITIONAL PASS¶
근거: - 핵심 발견 (평탄화 collapse, +40 PAPE 4 후보, H10-1 강한 FAIL) 의 수치적 정확성 PASS. - 결론 (E2 drop, v11 STFT/wavelet) 의 방향성 PASS. - 단 5개 항목에서 revision 1 필수: 1. §3.4 plateau 평균 수치 정정 (339.4/333.5 → 335.74/335.07) + Welch/MW p-value 추가 2. §3.3 후보 4 검증에 E2_simple ablation 결과 통합 + "simple 도 collapse" disclosure 3. §3.3 peak_pred denominator 정의 명시 + 정의 (B) (pred_at_argmax) 12.5% footnote 4. §3.3 평탄화 가구별 분산 표 추가 (per-household ratio std=0.148, IQR=[0.15, 0.35]) 5. §3.3 MSE 함정 disclosure 가 "E2 unique 패턴 (E1/E4 는 PAPE/MSE 동시 악화)" 임을 명시
revision 1 후 expected verdict: ACCEPT. 5개 항목은 결론을 바꾸지 않는 narrative 보강.
3.2 사용자 컨텍스트 "simple 16 좋아짐" 에 대한 critic 입장: NO ADJUSTMENT¶
simple PAPE 68.35 가 본 실행 84.97 대비 16 좋아진 것은 사실이나, simple 의 (a) MSE 1.40 (본 실행 0.48 의 3배), (b) std_ratio 0.066 (본 실행 0.61 의 1/10), (c) corr -0.003, (d) best_round=0 은 simple 이 더 극단적 collapse 임을 보여줌. simple 의 PAPE 개선은 학습이 잘 돼서가 아니라 "단조 상수 출력" 이 PAPE 분모-분자에 우연히 favorable 했기 때문. expert 의 "E2 drop, v11 재설계" 결론은 simple 결과로 약화되지 않으며 오히려 강화 (simple ablation 으로도 회복 불가능 = 디자인 자체 결함).
4. exp-expert 에게 전달하는 필수 수정 사항¶
4.1 P0 (revision 1 차수에 필수)¶
- §3.4 plateau 수치 정정: round 10-19 평균 339.4 → 335.74 (std 12.17), round 20-29 평균 333.5 → 335.07 (std 9.58). 차이 -0.67 (-0.20%). Welch t-test p=0.90, Mann-Whitney p=0.91 추가. 결론 "plateau" 는 강화되므로 narrative 는 그대로 유지 가능.
- §3.3 에 E2_simple ablation 결과 통합: 본 critic §1.4 의 4 후보 검증 표를 그대로 인용. simple PAPE 68.35 / MSE 1.40 / std_ratio 0.066 / corr -0.003 / best_round=0 명시. simple 이 4 후보 중 어느 것도 분리하지 못한다는 결론.
- §3.3 peak_pred 정의 명시: "peak_true ≡ y_true window-wise max 의 window 평균. peak_pred ≡ y_pred window-wise max 의 window 평균. (B) pred_at_argmax(y_true) 정의로 측정 시 0.252/2.011 = 0.125 (12.5%)" 추가.
- §3.3 가구별 분산 disclosure: per-household std_ratio (n=50) 의 mean=0.267, std=0.148, median=0.259, 5%-95%=[0.080, 0.536], # households with ratio<0.20 = 24/50 표 추가.
4.2 P1 (반영 권장, 결론 영향 작음)¶
- §3.3 MSE 함정 disclosure 의 적용 범위 명시: "본 함정은 E2 평탄화 collapse 에 specific. E1 PAPE 55.01 / MSE 0.81, E4 PAPE 67.59 / MSE 0.79 는 PAPE/MSE 동시 악화로 함정 패턴 없음."
- §3.2 K-means++ cliff 가설 강도 약화: simple
kmeans_init=False에서도 best_round=0 발생. cliff 가 K-means unique 가 아닐 가능성 disclose. - §2.2 H10-1 falsification 표현 정정: "OR 조건이라 두 축 위반 = 중복 기각, 단일 축 위반만으로도 기각 충족" 명확화.
4.3 P2 (선택적, narrative 품질)¶
- §3.3 npy path 정정:
mlruns/738860791398377455/3d377754b8a54dbaafcf4ec85000e8ba/artifacts/predictions/e2_y_pred.npy또는 run_id 명시. - §4 통신량 표 E1/E4 bytes/round 빈칸 → "v10 합본 reporter 단계에서 보충" 명시.
4.4 재실험 권고 (engineer 측 후속, expert 산출물 외)¶
-
cb_util_{band}_{peak|nonpeak}분리 로깅 v11 의무화 (설계서 §9.2 의 reaffirmation, ADR-010 §결정 파라미터 update 후보). - v11 STFT/wavelet 명시적 분해 시 ablation: STFT 만 / wavelet 만 / pooling-only baseline 3 군 비교 (4 후보 중 #1 의 분리).
- v11 single-stack VQ 변형: low/mid 는 dense, high 만 VQ 의 ablation 으로 #1 (3-stack 합성) 분리.
5. 재실험 권고 체크리스트 (E2 drop 유지 시)¶
E2 본 실행 + E2_simple 모두 drop 권고. 재실험 (E2 prime) 권고하지 않음. 대신:
- v10 합본 reporter 가 §1.4 (이번 critique) 의 simple ablation 결과를 footnote 로 통합.
- v11 phase 가 시작될 시 E2 의 4 후보 (3-stack additive / VQ_high×2 / γ=0.85 비대칭 / K-means++ cliff) 를 단일 ablation 단위로 분리 가능한 design 을 sketch (engineer Stage 0 task).
- v11 Stage 1 smoke gate: util > 30% AND std_ratio > 0.5 AND corr > 0.6 AND best_round > 5 의 4 축 동시 충족 (E2 collapse mode 4종 동시 회피 검증).
6. 인정되는 강점 (Acknowledged Strengths)¶
- 평탄화 collapse 진단의 정확성: y_pred std / y_true std, peak_pred / peak_true, corr 의 3 지표 동시 보고는 v10 phase 에서 처음 시도된 평탄화 진단 protocol. v11 이상 phase 의 표준 메트릭으로 채택 권고.
- MSE 함정 인식: §3.3 에서 "MSE 가 좋아 보이는데 PAPE 가 무너지는" 패턴을 분리해 narrative 화한 것은 v9-06 lesson (MSE-PAPE-HR trade-off 명시) 의 구체적 적용. reporter 단계에서 활용도 높음.
- 4 후보 enumerate + 단일 seed 한계 disclosure (§7): 인과 주장 자제와 후보 enumeration 분리는 v9-06 lesson (통계 비유의 표현 강제) 의 모범적 적용.
- §3.5 NHITS hierarchical pooling × FreqBandCB 구조 부정합 분석: 단순 결과 보고를 넘어선 architectural rationale. v11 STFT/wavelet 권고의 근거가 됨.
- §2.3 정성 증거 부재의 정직한 disclosure: "약하게 기각" 이 아니라 "강하게 기각 — 검증 자체가 의미 없을 정도로 util 낮음" 으로 격상한 것은 데이터 부족 변호의 반대 방향이라 신뢰 가능.
7. 메타 — Memory feedback 적용 여부¶
| Memory feedback | 본 critique 에서의 적용 |
|---|---|
denominator_manipulation_via_skip |
§1.2 peak_pred 정의 명시 권고 — denominator (A)/(B)/(C) 셋 다 평탄화 일관 시사로 manipulation 의심 없음. 정의 명시 누락만 형식 결함. |
gating_threshold_post_hoc_relaxation |
§3.4 plateau 통계가 expert 의 임의 임계 (5.9pp) 가 아니라 statistical test (p=0.90) 로 강화되도록 권고. |
ranking_claim_without_significance |
"v10 worst" 라는 ranking claim 은 4 E* point estimate 비교 — CI/test 없음. 단 +40 PAPE 차이가 noise (~3-5%p) 보다 압도적 magnitude 라 ranking 자체는 robust. expert §7 에서 이미 disclose. |
figure_data_sourcing_non_reproducibility |
npy path 정정 권고 (§2.1). |
expected_failure_rationalization |
E2 의 "예상된 collapse" 변호 패턴은 보고서에 없음. expert 가 H10-1 강한 기각을 인정하고 v11 재설계 권고로 직접 결론. |
| v9-06 revision 1 교훈 (Apt51 cherry-picking) | per-household 분산 disclosure 누락 (§1.1) 으로 cherry-picking 검증 불가. revision 1 P0 항목으로 강제. |
판정¶
CONDITIONAL PASS. 5 항목 P0 revision 1 후 ACCEPT 가능. expert 의 E2 drop / v11 재설계 결론은 사용자가 제공한 simple ablation 결과로 약화되지 않고 오히려 강화되며, "simple 이 16 좋아졌으니 조정" 변호는 거부. simple 의 평탄화는 본 실행보다 더 극단적이고 학습 자체가 실패 (best_round=0).
revision 1 후 reporter 단계에서 v10 4 E 합본 시 본 critic §1.4 의 simple ablation 결과를 각주로* 통합 권고. 단 simple 자체는 별도 expert 보고서를 작성하지 않고 본 보고서 §3.3 에 흡수.