Source:
report/version10/exp-expert/v10-04_E4_Crossformer_PQ_analysis_v2.md
v10-04 E4 Crossformer + PQ — 단독 분석 (revision 1)¶
본 보고서는 v10 phase 의 E4 Crossformer + Product Quantization (4 sub × M=16, d_sub=16) 단일 run 결과 분석이다. 담당 가설은 H10-4 (cold-start 50 가구에서 Crossformer+PQ 가 4 모델 중 PAPE 1위) 이나, cold-start 평가가 미실행 (Task #19 보류) 이므로 H10-4 는 검증 보류 (NOT TESTED) 한다. 점추정만 보고하며, seed=42 단일이므로 통계적 유의 주장은 일절 하지 않는다 (v9-06 Major 2 교훈, R3 정책).
Revision 1 요약 (critic CONDITIONAL PASS 대응)¶
| # | Critic 지적 | 본 revision 처리 | 위치 |
|---|---|---|---|
| Critical | §5.3 sub_4 peak→dead 가설을 E4_simple ablation 이 정반대로 falsify | §5.3 전면 재서술 (sub_4 비대칭 주입은 dead-zone 원인이 아니라 HR@1 유지에 essential) + §12.3-(4) commit×0.5 약화 권고 삭제 | §5.3, §12.3 |
| Major 1 | v9-06 비교에서 d_model 8× 축소 (64 vs 512) 미disclose | §8.2 비교표에 d_model / e_layers 차이 명시 + 정량화 시도 | §8.2 |
| Major 2 | best_val < test 음의 gap 이 main+simple 양쪽에서 동일 방향 → split systemic 가능성 | §9 (구 §6.2 학습 dynamics 진단 확장) + §10.5 신설 | §9, §10.5 |
| Major 3 | HR@2 / HR@1 ratio 분석 부재 | §3.3 신설 (E4=1.54 가 4 모델 최저 → peak 영역 specifically poor) | §3.3 |
| Major 4 | seed=7 run 인지 + sanity-check 미수행 disclose | §10.1 보강 (seed=7 status=KILLED 명시) | §10.1 |
| Major 5 | §12.3-(1) cold-start ROI 권고가 H10-4 정의된 step 을 sidestep | §12.3-(1) 정정 (cold-start 는 H10-4 검증 필수 step) | §12.3 |
0. Executive Summary (revision 1)¶
- 점추정 결과 (UMass Train 50 가구, seed=42, 70/10/20):
- test_pape = 67.59 (v9-05/06 Strict gating ≤ 43 대비 +24.6 %p 위반, 대규모 FAIL)
- test_hr_tol1 = 11.30 / test_hr_tol2 = 17.44 / test_mse = 0.7901
- bytes_per_round = 4,096 (v10 4 VQ 모델 중 최저, B4 noVQ 453,472 대비 −99.10 %)
- 동일 backbone 직접 비교 (B4 FedAvg Crossformer no-VQ vs E4 Crossformer+PQ):
- PAPE: 41.81 → 67.59 (+25.78 %p 악화)
- HR@1: 18.57 → 11.30 (−7.27 %p)
- HR@2: 30.00 → 17.44 (−12.56 %p)
- MSE: 0.840 → 0.790 (−5.95 %, 미미하게 개선)
- bytes_per_round: 453,472 → 4,096 (−99.10 %)
- sub_4 비대칭 주입 ablation (E4_simple, run_id 88676ef7) — revision 1 신규:
- sub 별 commit β / γ 균등 (β=0.25, γ=0.95) 적용 시 PAPE 64.66, HR@1 2.86, HR@2 10.00
- main (commit β sub_4 ×1.5, γ sub_4=0.85) PAPE 67.59, HR@1 11.30, HR@2 17.44
- HR@1 4× 차이 (11.30 vs 2.86) — sub_4 비대칭 주입은 HR@1 유지에 essential 한 인자임이 확인됨
- simple 의 sub_2/3/4 utilization 이 round 1~30 내내 정확히 1/16 = 0.0625 로 고정 (단 1 codeword 활성, 즉 더 심한 dead-zone)
- → 초안에서 제기한 "sub_4 비대칭 주입이 sub_4 dead-zone 화 원인" 가설은 정반대로 반증됨 (§5.3 재서술).
- 30 round 코드북 활성도 추이 (M=16 per sub, main run):
- sub_1 (trend, β=0.25, γ=0.98): 평균 13.4 % (range 7.7-19.4 %)
- sub_2 (periodicity, β=0.25, γ=0.95): 평균 16.0 % (range 6.6-23.5 %, 유일하게 후반 상승 추세)
- sub_3 (fluctuation, β=0.25, γ=0.90): 평균 12.5 % (range 7.9-17.3 %)
- sub_4 (peak, β=0.375 ×1.5, γ=0.85): 평균 12.0 % (range 7.8-19.5 %, 후반 11~14 % 정체)
- HR@2 / HR@1 비율 (revision 1 신규, §3.3): E4 = 1.54, B4=1.62, E1=2.00, E3 SCINet+RQ=1.57. E4 가 4 모델 중 가장 낮음 — E4 prediction 이 peak 영역에서 specifically poor 함을 시사.
- best_val_pape vs test_pape 음의 gap (revision 1 신규, §9): main 72.82 → 67.59 = −5.23 pp, simple 73.52 → 64.66 = −8.86 pp. 양쪽 동일 방향성 → 70/10/20 split 자체의 systemic 패턴 (val 셋 이 test 보다 더 어렵거나, PAPE 의 비선형 averaging 효과) 가능성. 본 보고서는 점추정 acknowledge 만 하며 진단은 reporter 합본 단계로 위임.
- H10-4 판정: NOT_TESTED. cold-start 평가 (Task #19) 미실행. cold-start 는 H10-4 검증을 위한 정의된 step 이며, in-fed 결과로 sidestep 할 수 없다. 후속 phase 에서 cold-start 평가 완료 후 재판정 필수.
- 결론 (E4 단독): E4 는 Strict / Watch / Collapse-Free 3 개 성공 기준 미달 (Peak-Specialization 은 분리 metric 부재로 직접 평가 불가). 통신 효율 (bytes_per_round 4,096) 은 v10 최저로 매력적이나, +25.78 %p PAPE 악화 trade-off 는 수용 불가 수준. Cold-start 평가 (H10-4 정의된 step) 완료 전까지 H10-4 판정 보류.
1. 실험 목적 및 가설¶
1.1 담당 가설¶
| ID | 가설 | Falsification 조건 |
|---|---|---|
| H10-4 | Crossformer + Product Quantization (4 sub × M=16) 가 UMass 50 가구 cold-start (Train 50 가구로 학습 → Cold 50 가구 few-shot 168h 평가) 에서 4 모델 (E1-E4) 중 PAPE 1위 | cold-start PAPE 순위에서 Crossformer+PQ 가 1위가 아님 (동순위 tie 불포함) |
검증 조건 부재: 본 phase 의 cold-start 평가 (Task #19) 는 v10-03 interim report §1.3 시점 미실행. 따라서 H10-4 의 falsification / supporting 둘 다 결정 불가. 본 보고서는 in-fed test (Train 50 가구) 점추정 비교만 제공하며 H10-4 는 NOT_TESTED 로 표기한다. cold-start 평가는 H10-4 의 정의된 평가 step 이므로 in-fed 결과를 사용해 sidestep 할 수 없다 (revision 1 정정).
1.2 보조 관찰 (H10-3, H10-5)¶
- H10-3 (RQ collapse 회피): E3 SCINet+RQ 가 status=FAILED 로 본 보고서에서 직접 평가 불가. 반면 E4 PQ 의 4 sub-space 분할이 collapse 를 회피했는가는 부분적 미충족 — 4 sub 모두 utilization 평균 12-16 % 박스권, ≥ 20 % 임계 미달.
- H10-5 (구조 정합성): 4 정합 조합 (E1-E4) 의 PAPE 점추정 평균은 E1 55.01 + E4 67.59 + (E2 84.97 + E3 미상) 대조군 미실행 으로 단정 불가. 단 E4 가 B4 noVQ 41.81 대비 +25.78 %p 악화 → "PQ 가 Crossformer 와 정합" 명제는 점추정 기준 반증 우위.
2. 실행 환경 및 설정¶
2.1 MLflow 메타정보¶
| 항목 | 값 |
|---|---|
| experiment_id | 738860791398377455 (v10-multi-model-vq) |
| run_id (main) | 885b2ae059d64705a873af8d4e5245ba |
| run_id (simple ablation) | 88676ef73e494f6ebe577c32cbd66936 (revision 1 신규 인용) |
| run_name | E4_Crossformer_PQ_seed42 |
| status | FINISHED |
| seed | 42 (단일) |
| split_version | v10 (70/10/20) |
| n_train_households | 50 |
| fl_mode | FL (FedAvg + Memory Alignment per-sub γ) |
2.2 모델 설정 (실제 학습값, params/ 디렉토리)¶
| 항목 | 값 | 설계서 §3.6 명세 | v9-06 Crossformer | 차이 |
|---|---|---|---|---|
| backbone | Crossformer | Crossformer | Crossformer | — |
| input_size | 96 | 96 | 96 | — |
| horizon | 24 | 24 | 24 | — |
| features | S (univariate, 추정) | S | S | — |
| seg_len | 4 | 6 | (확인 필요) | −2 (감소) |
| d_model | 64 | 256 | 512 | vs 설계서 4× 축소 / vs v9-06 8× 축소 |
| n_heads | 4 | 4 | 8 (추정) | — |
| e_layers | 2 | 3 | 3 (추정) | −1 |
| vq_strategy | ProductQuantization | PQ | (없음) | — |
| n_subs | 4 | 4 | — | — |
| num_codewords (M) | 16 | 16 | — | — |
| d_sub (= d_model / n_subs) | 16 | 64 | — | 4× 축소 |
| ema_decay | 0.99 (코드 default) | — | — | — |
| 통신 budget per sub | 16 codewords × 16 dim × 4 B = 1,024 B | 16 × 64 × 4 = 4,096 B | — | — |
| bytes_per_round (4 sub 합) | 4,096 | 16,384 | 453,472 (=B4) | 1/4 축소 (vs 설계서) |
중요한 disclosure (R-A1 critic 대비, revision 1 강화): v10-02 §3.6 E4 명세 ("d_model=256 → 4 sub × 64-dim") 와 실제 구현 (d_model=64 → 4 sub × 16-dim) 이 다르다. 또한 v9-06 baseline 의 Crossformer 가 d_model=512 였던 것과 비교하면 v10 E4 는 8× capacity 축소. 이는 v10-02 §0 의 "공정 비교 위해 단변량 통일" 결정에 따라 d_model 을 단변량 친화적으로 축소했다고 추정되나, 본 보고서에서는 이 차이를 설계 vs 구현 갭 + v9-06 대비 8× capacity 축소 두 차원에서 명시 disclose 한다.
정량화 시도 한계: 단일 seed, 단일 d_model, ablation 부재 상태로 capacity 축소 영향만 분리 정량화 불가. v9-06 Crossformer noVQ (d_model=512) PAPE 44.45 vs v10 B4 Crossformer noVQ (d_model=64) PAPE 41.81 이 거의 동등 수준이므로 단순 d_model 축소가 PAPE 를 크게 악화시키지 않은 것으로 추정. 즉 +25.78 %p 악화는 d_model 축소 자체가 아닌 PQ 이식 또는 PQ × Crossformer 단변량 무력화 상호작용에 기인할 가능성이 높다 (§8.3 참조). 단 이 추정도 단일 seed 한계 안에 있다.
2.3 학습 / FL 설정¶
| 항목 | 값 |
|---|---|
| peak_alpha (loss α) | 2.0 |
| peak_beta (loss β) | 0.1 |
| fl_rounds | 30 |
| local_epochs (per round) | 3 |
| local_lr | 1e-3 |
| batch_size (params) | 32 (추정, default) |
| Memory Alignment γ per sub | sub_1=0.98 / sub_2=0.95 / sub_3=0.90 / sub_4=0.85 |
| Commitment β per sub | sub_1=0.25 / sub_2=0.25 / sub_3=0.25 / sub_4=0.375 (×1.5) |
| Peak 특화 주입 위치 | sub_4 (마지막 sub-space) |
PER_CB_GAMMA 와 _COMMITMENT_BETAS 는 src/peak_analysis/vq_layers/product_quant.py 에서 직접 확인. sub_4 가 동시에 (a) 가장 강한 commitment 압력 ×1.5 와 (b) 가장 낮은 γ=0.85 (Memory Alignment 시 더 강한 reset) 를 받음. 초안에서는 이 두 조합이 sub_4 dead-zone 의 원인이라고 가설했으나, revision 1 §5.3 에서 E4_simple ablation 으로 정반대 반증.
3. Primary 결과 (테스트 셋, 50 가구 in-fed)¶
3.1 Test 메트릭¶
| 메트릭 | 값 | v9-05/06 Strict 임계 | 충족 |
|---|---|---|---|
| test_pape | 67.59 | ≤ 43 | × (+24.59 %p 초과) |
| test_hr_tol1 (HR@1) | 11.30 | ≥ 37 | × (−25.70 %p 미달) |
| test_hr_tol2 (HR@2) | 17.44 | — | — |
| test_mse | 0.7901 | (B0=0.515) | × |
| test_mae | 0.6103 | — | — |
| test_mape | 232.57 | — | — |
| test_smape | 59.30 | — | — |
판정: - Strict (PAPE ≤ 43 AND HR@1 ≥ 37): FAIL (양 축 동시 위반). - Watch (v9-05 OR, PAPE ≤ 43 OR HR@1 ≥ 37): FAIL (양 축 동시 위반). - Collapse-Free (전체 utilization ≥ 20 %): FAIL (4 sub 평균 13.5 %). - Peak-Specialization (sub_4 가 peak window 에서 선택적 활성): 분리 metric 부재로 직접 평가 불가 (peak/non-peak 분리 utilization 미기록 — H10-1 전용 metric 만 정의되어 E4 에는 부재). 단 §5.3 의 ablation 비교는 "비대칭 주입이 HR@1 유지에 essential" 이라는 간접 증거를 제공. - 통신 효율 (bytes_per_round 최저): PASS (4,096 B, v10 최저).
3.2 Strict gating 시각 (참고)¶
PAPE 축 (낮을수록 좋음)
v9-06 NBEATSx 점추정 1위: 34.58
Strict gate: ──────────── 43 ─────────────
E4: 67.59 (+24.59)
B4 Crossformer noVQ: 41.81 ──── (+0.81)
HR@1 축 (높을수록 좋음)
Strict gate: ──── 37 ──────────────
B4: 18.57 (−18.43)
E4: 11.30 (−25.70)
3.3 HR@2 / HR@1 ratio 분석 (revision 1 신규)¶
Critic Major 4 지적 반영. HR@2/HR@1 비율은 모델이 "정확히 1순위" 와 "근접 (2순위 이내)" 사이의 정확도 격차를 측정하며, ratio 가 클수록 1순위 정확도 대비 근접 정확도가 높다 (즉 model 이 peak 시점 근처는 잘 잡지만 정확한 시점은 놓치는 패턴).
| 모델 | HR@1 | HR@2 | HR@2 / HR@1 ratio |
|---|---|---|---|
| E1 NBEATSx + DecompCB | 15.71 | 31.43 (B2 미확인, E1 추정) | (확인 필요) |
| E1 (다른 출처 인용) | 15.71 | (HR2/HR1=2.00 인용) | 2.00 |
| E4 Crossformer + PQ | 11.30 | 17.44 | 1.54 ← 4 모델 중 최저 |
| E3 SCINet + RQ (status=FAILED, 실패 직전 값 추정) | (확인 필요) | — | 1.57 (인용) |
| B4 Crossformer noVQ | 18.57 | 30.00 | 1.62 |
| (참고) v9-06 NBEATSx | (확인 필요) | (확인 필요) | — |
해석: - E4 의 HR2/HR1 ratio 1.54 는 비교 4 모델 중 최저. 이는 E4 의 prediction 이 단순히 1순위 hit 만 낮은 것이 아니라, peak 영역 (1-2 시점 근처) 자체에서 specifically poor 함을 시사. - B4 noVQ (1.62) 와 비교 시 E4 가 PQ 이식 후 ratio 가 추가로 0.08 감소 → PQ 가 peak 영역의 미세 시간 분해능을 추가로 손상시켰을 가능성. - E1 의 ratio 2.00 (인용 기준) 은 E1 이 1순위는 못 잡아도 2순위 내에서는 상당히 잘 잡는 패턴 → E1 의 NBEATSx + DecompCB 는 peak 시점 근처 dispersion 이 작은 prediction 을 만든다는 해석 가능. - 본 ratio 분석은 단일 seed 점추정 비교이며, 통계적 유의성은 주장하지 않음.
4. 동일 backbone 직접 비교 (E4 vs B4 noVQ)¶
v10-03 interim report 기준 B4 FedAvg Crossformer no-VQ 가 E4 와 동일 backbone + 동일 split (70/10/20) 으로 학습되었다.
| 메트릭 | B4 noVQ | E4 PQ | Δ (E4 − B4) |
|---|---|---|---|
| test_pape | 41.81 | 67.59 | +25.78 |
| test_hr_tol1 | 18.57 | 11.30 | −7.27 |
| test_hr_tol2 | 30.00 | 17.44 | −12.56 |
| test_mse | 0.8397 | 0.7901 | −0.0496 (−5.91 %) |
| test_mae | 0.6732 | 0.6103 | −0.0629 (−9.34 %) |
| best_round | 23 | 23 | 0 |
| bytes_per_round | 453,472 | 4,096 | −99.10 % |
4.1 해석¶
- PAPE / HR@1 / HR@2 모두 큰 폭 악화. 특히 PAPE +25.78 %p, HR@2 −12.56 %p 로 peak 정확도 감소가 결정적이다.
- MSE 와 MAE 는 미세 개선 (각 −5.91 %, −9.34 %). 이는 PQ regularization 이 평균 오차에는 도움을 주나, peak 지점 예측 (PAPE / HR) 에는 악영향임을 시사. 평균과 peak 가 분리되어 움직이는 v6 R1b 패턴 (util-PAPE decoupling, ADR-009) 의 또 다른 변형.
- bytes_per_round −99.10 % 는 압도적이지만, +25.78 %p PAPE trade-off 와 분리해 보면 의미가 없다. on-device ESS 배포 관점에서 통신만 본다면 PQ 가 매력적이나, peak 예측 정확도가 운영 결정의 critical metric 인 본 연구에서는 trade-off 가 수용 불가.
- best_round 가 양쪽 모두 23 으로 일치. 이는 backbone 구조 자체의 학습 dynamics (특히 FL aggregation 안정 시점) 가 dominant 함을 보여주며, PQ 이식이 "더 빨리 / 더 늦게" 수렴시키지 못함.
5. 코드북 동역학 (codebook utilization, commitment loss)¶
5.1 30 round 활성도 (per sub, M=16) — main run¶
| round | sub_1 | sub_2 | sub_3 | sub_4 |
|---|---|---|---|---|
| 1 | 14.7 % | 14.6 % | 14.3 % | 15.0 % |
| 5 | 19.4 % | 12.4 % | 8.4 % | 12.6 % |
| 10 | 16.5 % | 15.4 % | 11.1 % | 10.2 % |
| 15 | 13.9 % | 19.9 % | 10.7 % | 10.2 % |
| 20 | 12.8 % | 20.5 % | 11.3 % | 14.1 % |
| 23 (best) | 11.6 % | 20.7 % | 14.1 % | 13.5 % |
| 25 | 17.3 % | 14.3 % | 14.8 % | 11.2 % |
| 28 | 11.5 % | 16.9 % | 14.0 % | 19.5 % |
| 30 | 16.8 % | 17.2 % | 17.3 % | 10.2 % |
| 평균 | 13.4 % | 16.0 % | 12.5 % | 12.0 % |
| range | 7.7-19.4 | 6.6-23.5 | 7.9-17.3 | 7.8-19.5 |
관찰: - 4 sub 모두 30 round 내내 utilization 20 % 임계 미달 (collapse-free 정의 미충족, 설계서 §11 R2 / §1.3 collapse-free). - sub_2 (periodicity, β=0.25, γ=0.95) 만이 후반 round 에서 20 % 근접 / 일시 초과 (round 19~24, 21.1~23.5 %) — 4 sub 중 가장 강한 활성. 단변량 univariate 입력의 자연 주기 (일 24h) 가 mid-frequency sub 에 가장 잘 매핑된 것으로 추정. - sub_4 (peak, β=0.375 ×1.5, γ=0.85) 평균 12.0 % — 4 sub 중 가장 낮으나, sub_3 (12.5 %) 와 거의 차이 없음.
5.2 sub_4 commitment loss 추이 (round-별, raw, main)¶
| round | sub_1 | sub_2 | sub_3 | sub_4 | sub_4 / sub_1 비율 |
|---|---|---|---|---|---|
| 1 | 0.0030 | 0.0022 | 0.0028 | 0.0022 | 0.73 |
| 5 | 0.0030 | 0.0052 | 0.0126 | 0.0025 | 0.83 |
| 10 | 0.0082 | 0.0058 | 0.0087 | 0.0058 | 0.71 |
| 15 | 0.0048 | 0.0049 | 0.0060 | 0.0033 | 0.69 |
| 20 | 0.0027 | 0.0036 | 0.0048 | 0.0016 | 0.59 |
| 23 (best) | 0.0044 | 0.0042 | 0.0039 | 0.0018 | 0.41 |
| 27 | 0.0026 | 0.0051 | 0.0029 | 0.0012 | 0.46 |
| 30 | 0.0033 | 0.0034 | 0.0044 | 0.0026 | 0.79 |
| 평균 (round 13~30) | 0.0040 | 0.0044 | 0.0040 | 0.0024 | 0.60 |
해석: - sub_4 의 raw commitment loss 가 4 sub 중 가장 낮음. 그러나 sub_4 의 commitment β 는 0.375 (×1.5) 이므로, 가중 commitment loss = 0.0024 × 0.375 = 0.0009 인 반면 sub_1 의 가중 commitment loss = 0.0040 × 0.25 = 0.0010 으로 거의 같다. - 즉 sub_4 의 ×1.5 commitment 가중치가 작용하여 raw distance 는 4 sub 중 최저로 압축되었고, 가중 commitment 손실은 다른 sub 와 같은 수준에서 균형. 이 결과는 sub_4 가중 commitment 가 효과적으로 작동했음을 의미.
5.3 sub_4 비대칭 주입 효과 — E4_simple ablation 비교 (revision 1 전면 재서술)¶
초안의 가설: sub_4 의 ×1.5 commitment + γ=0.85 reset 이 sub_4 dead-zone 화의 원인. → 반증됨.
Ablation 구성 (run_id 88676ef73e494f6ebe577c32cbd66936, run_name E4_simple_seed42):
- Crossformer + PQ 동일 backbone / 동일 PQ 구조 (4 sub × M=16, d_sub=16)
- 차이점: uniform_beta=True, uniform_gamma=True → 4 sub 모두 commit β=0.25 균등, γ=0.95 균등 (sub_4 비대칭 주입 제거)
- 동일 seed=42, 30 rounds
| 메트릭 | E4 main (sub_4 비대칭) | E4_simple (균등) | Δ (simple − main) |
|---|---|---|---|
| test_pape | 67.59 | 64.66 | −2.93 (simple 더 나음) |
| test_hr_tol1 | 11.30 | 2.86 | −8.44 (simple 폭락, HR@1 ≈ 4× 차이) |
| test_hr_tol2 | 17.44 | 10.00 | −7.44 |
| test_mse | 0.7901 | 1.0076 | +0.2175 (simple 더 나쁨) |
| best_val_pape | 72.82 | 73.52 | +0.70 |
| best_round | 23 | 21 | −2 |
| sub_2 utilization (round 1~30) | 6.6 % ~ 23.5 % (변동) | 0.0625 (정확히 1/16, 30 round 모두) | — |
| sub_3 utilization (round 1~30) | 7.9 % ~ 17.3 % | 0.0625 (정확히 1/16, 거의 모두) | — |
| sub_4 utilization (round 1~30) | 7.8 % ~ 19.5 % | 0.0625 (정확히 1/16, 30 round 모두) | — |
| sub_1 utilization (round 1~30) | 7.7 % ~ 19.4 % | 6.75 % ~ 9.02 % (좁은 범위) | — |
핵심 발견: 1. simple 의 HR@1 = 2.86 vs main 의 HR@1 = 11.30 — 약 4× 차이. main 의 sub_4 비대칭 주입 (commit×1.5 + γ=0.85) 은 dead-zone 을 유발하는 것이 아니라 HR@1 유지에 essential 한 인자임이 확인됨. 2. simple 에서는 sub_2/3/4 가 30 round 내내 정확히 0.0625 = 1/16 의 utilization 으로 고정 — 이는 단 1 codeword 만 활성 인 극단적 dead-zone (정의상 collapse). main 의 12-16% (≈ 2-3 codeword 활성) 는 simple 대비 명백히 더 활성 상태. 3. sub_4 비대칭 주입은 collapse 를 완화시키는 방향으로 작동 (simple 대비 main 의 sub_4 utilization 이 평균 12.0 % 로 simple 의 6.25 % 대비 ≈ 2× 더 활성). 즉 비대칭 주입 제거가 collapse 를 더 심화시킴.
초안 가설의 반증 메커니즘: - 초안에서는 sub_4 의 raw commitment loss 가 4 sub 중 가장 낮은 것을 "강한 commitment 가 활성을 1-2 codeword 에 집중시킨 dead-zone 신호" 로 해석. - ablation 결과는 정반대: 비대칭 주입 (×1.5 + γ=0.85) 이 encoder 가 sub_4 codebook 에 의미 있는 신호를 강제로 매핑하도록 압박 → sub_4 가 균등 설정 대비 더 다양한 codeword 를 활성화. - 균등 설정 (simple) 에서는 sub_2/3/4 모두 단 1 codeword 로 collapse → encoder 가 sub-space 분리 신호를 전혀 학습하지 못함 → HR@1 폭락. - 결론적으로 sub_4 비대칭 주입은 PQ 의 sub-space 분리를 강제하는 핵심 메커니즘. 다만 main run 에서도 4 sub 평균 13.5% 로 collapse-free 임계 (≥ 20%) 미달이므로, 비대칭 주입이 효과적이긴 하나 충분히 강하지 못함 으로 보는 것이 정확한 해석.
일반화 교훈 (critic 신규 인지 메모리 ablation_reverse_falsification_pattern.md 와 정합):
- internal observable (raw commitment loss 의 sub-별 절대값) 만으로 도출한 메커니즘 가설이 ablation 에서 정반대 방향으로 반증된 사례.
- 향후 메커니즘 가설은 (a) internal observable 추세 + (b) 해당 인자를 제거한 ablation 의 2축 검증을 거치기 전에는 단정하지 않아야 함.
6. 학습 곡선 (round-별 val_pape, val_loss)¶
6.1 30 round val_pape 추이 (main)¶
round 1 : 80.42 (시작)
round 6 : 72.90 (1차 최저)
round 11 : 72.82 (2차 최저)
round 13 : 73.03
round 15 : 74.43
round 18 : 76.08
round 20 : 76.33
round 23 : 74.05 (best_round 직전)
round 24 : 72.82 (best_val_pape)
round 27 : 74.69
round 30 : 75.30 (종료)
- val_pape 는 30 round 내내 72.8 ~ 80.4 박스권 에서 fluctuation. 수렴 패턴 부재 — 전형적으로 학습이 미수렴 또는 underfitting.
- best_val_pape = 72.82 (round 24) 와 round 6 의 72.90 차이가 0.08 %p 에 불과. "best round" 선정이 noise-level fluctuation 에 의해 결정되었음을 시사.
- val_loss (round_val_loss) 는 0.5700 (round 1) → 0.5400 (round 28) 로 −5.3 % 미세 감소. PAPE 는 미수렴이나 평균 loss 는 천천히 감소 — 이는 4.1 의 MSE 미세 개선 (−5.91 %) 과 정합.
7. 4 VQ 모델 비교 (in-fed test 기준)¶
7.1 점추정 순위표¶
| 모델 | test_pape | test_hr1 | test_mse | bytes_per_round | best_round | 상태 |
|---|---|---|---|---|---|---|
| E1 NBEATSx + DecompCB | 55.01 | 15.71 | 0.807 | 24,576 | 16 | FINISHED |
| E4 Crossformer + PQ | 67.59 | 11.30 | 0.790 | 4,096 | 23 | FINISHED |
| E2 NHITS + FreqBand | 84.97 | 13.22 | 0.482 | 24,576 | 19 | FINISHED |
| E3 SCINet + RQ | (FAILED) | — | — | — | — | status=5 |
(E3 는 mlflow status=5 (FAILED) 로 본 보고서 직접 비교 범위 외. reporter 합본 시 E3 별도 확인 필요.)
7.2 동일 backbone noVQ baseline 대비 PAPE Δ¶
| 모델 (VQ) | E* PAPE | 동일 backbone noVQ PAPE | Δ (E* − noVQ) |
|---|---|---|---|
| E1 NBEATSx + DecompCB | 55.01 | (B2 NBEATSx noVQ 추정, v10-03 미명시) | (확인 필요) |
| E2 NHITS + FreqBand | 84.97 | (B3 NHITS noVQ 추정) | (매우 큼) |
| E4 Crossformer + PQ | 67.59 | 41.81 (B4) | +25.78 |
컨텍스트의 "E2 (+40) > E4 (+25) > E1 (+8)" 는 reporter 합본 / lab-leader 기준 수치이며, 본 보고서는 E4 의 +25.78 만 직접 mlflow 검증. - E2 +40 추정: 84.97 − (B3 baseline 약 45) ≈ +40 (B3 수치는 v10-03 §1.4 baseline 정리표에서 확인 필요). - E1 +8 추정: 55.01 − (B2 baseline 약 47) ≈ +8. - 모델 × VQ 정합성 점추정 순위 (낮을수록 정합 우위): NBEATSx+DecompCB > Crossformer+PQ > NHITS+FreqBand.
7.3 통신 효율 vs PAPE trade-off¶
| 모델 | bytes_per_round | PAPE | bytes/PAPE 비 |
|---|---|---|---|
| E1 | 24,576 | 55.01 | 446.8 |
| E2 | 24,576 | 84.97 | 289.2 |
| E4 | 4,096 | 67.59 | 60.6 |
- bytes/PAPE 효율만 보면 E4 가 6배 우수. 하지만 PAPE 자체가 절대 임계 (Strict ≤ 43) 를 −24.6 %p 위반 하는 상태에서 효율 비 비교는 의미가 제한적.
8. v9-06 Crossformer FAIL 패턴 재현 분석¶
8.1 v9-05/06 Crossformer 결과 (recap)¶
- v9-05 Crossformer Track A: PAPE 52-53 FAIL (v9-06 재현). seed std 4 %p+ (raw torch loop 비결정성).
- v9-06 Crossformer noVQ: PAPE 점추정 44.45 (boundary FAIL), HR@1 21.24, 5-apt × 3-seed 평균 (n=15).
- 양 phase 에서 "단순 attention + decomposition" 계열 (Autoformer / Informer / FEDformer / Pyraformer / Crossformer 5/5) PAPE ≥ 44 FAIL 패턴이 반복 관찰 (v9-05/06 §8.1).
8.2 v10 E4 Crossformer+PQ vs v9-06 Crossformer 비교 (revision 1, capacity disclosure 강화)¶
| 출처 | d_model | e_layers | PAPE | HR@1 | n | seed | 상태 |
|---|---|---|---|---|---|---|---|
| v9-06 Crossformer noVQ | 512 | 3 (추정) | 44.45 | 21.24 | 15 (5 apt × 3 seed) | {42,7,123} | boundary FAIL |
| v10 B4 Crossformer noVQ (FedAvg) | 64 | 2 | 41.81 | 18.57 | 50 가구 | 42 | FAIL |
| v10 E4 Crossformer + PQ | 64 | 2 | 67.59 | 11.30 | 50 가구 | 42 | strong FAIL |
Capacity disclosure (revision 1 강화): - v9-06 Crossformer 의 d_model=512 → v10 E4/B4 Crossformer 의 d_model=64 = 8× 축소. - e_layers 도 3 → 2 로 축소 (33% 감소). - v10-02 §0 의 "공정 비교 위해 단변량 통일" 결정에 따른 축소이지만, v9-06 결과와 직접 비교 시 capacity 차이 효과를 분리할 수 없음을 명시 disclose.
해석 (단일 seed 한계 안에서): - v9-06 (d_model=512) → v10 B4 (d_model=64) PAPE 미세 개선 (44.45 → 41.81, −2.64 %p) — 8× capacity 축소에도 PAPE 거의 동등 또는 미세 개선. 이는 (a) FedAvg aggregation 효과 또는 (b) 50 가구 데이터 확장 효과가 capacity 축소를 상쇄했거나, (c) Crossformer 자체가 단변량 입력에서는 d_model=512 도 활용하지 못해 d_model=64 와 큰 차이가 없는 underdetermined 상태일 가능성. - v10 B4 → v10 E4 (PQ 이식) PAPE 큰 폭 악화 (41.81 → 67.59, +25.78 %p): 동일 d_model=64 capacity 안에서 PQ 만의 효과. d_model 차이로 설명되지 않음. - 즉 +25.78 %p 악화는 PQ 이식 자체 (또는 PQ × Crossformer 단변량 무력화 상호작용) 가 dominant 원인이며, capacity 축소만으로 설명되지 않는다.
한계: 본 비교는 v9-06 (5 apt × 3 seed) vs v10 (50 가구 × 1 seed) 의 비대칭 데이터 + seed 구성에서의 비교이므로, capacity 효과의 정확한 분리는 단일 d_model=64 + 단일 d_model=512 추가 ablation 없이는 불가능.
8.3 Best_val vs Test 음의 gap 패턴 (revision 1 신규)¶
Critic Major 3 지적 반영. main run 과 simple run 의 best_val_pape vs test_pape 비교:
| 출처 | best_val_pape | test_pape | gap (test − best_val) |
|---|---|---|---|
| E4 main | 72.82 | 67.59 | −5.23 pp (test 가 더 낮음 = test 가 더 쉬움) |
| E4 simple ablation | 73.52 | 64.66 | −8.86 pp (test 가 훨씬 더 낮음, 동일 방향) |
관찰: - 양 run 모두 test_pape < best_val_pape (= 음의 gap, test 가 val 보다 PAPE 낮음). - 일반적으로 학습 모델은 val 에 fit 한 후 test 에서 val 과 동등하거나 약간 더 나쁜 성능을 보이는 것이 통상. 음의 gap (test < val) 자체가 비통상적. - 두 run 이 동일 방향 + 비슷한 폭으로 음의 gap 을 보임 → uniformity 는 70/10/20 split 자체의 systemic 패턴 가능성.
가능한 원인 (점추정 acknowledge 만, 진단은 reporter 단계 위임): 1. Split 의 산술적 분포 차이: 70/10/20 split 에서 val (10%) 셋이 test (20%) 셋보다 우연히 peak 비율이 높거나 prediction 이 어려운 가구를 더 많이 포함했을 가능성. 가구 단위 split 인지 시간 단위 split 인지에 따라 영향 다름. 2. PAPE 의 비선형 averaging 효과: PAPE 는 가구별 / window 별 비선형 normalization 을 거쳐 계산되므로, val 의 sample size (10%) 가 작아 outlier 의 영향이 더 클 수 있음. 3. val/test 평가 시점 모델 상태 차이: best_round 선정이 round 23 (val 기준) 인데 test 평가는 round 23 모델로 한 번에 수행. val 자체가 round-별 fluctuation 의 noise 를 받음.
본 보고서는 이 systemic 패턴을 acknowledge 만 하고 단정하지 않음. reporter 합본 시 다른 v10 모델 (E1/E2/B0-B4) 의 val/test gap 패턴을 비교해 systemic 인지 확인 권고.
9. H10-4 / H10-3 / H10-5 판정¶
9.1 H10-4 (cold-start 4 모델 PAPE 1위)¶
판정: NOT_TESTED.
근거:
- v10-03 interim report §1.3: "Cold 50 가구는 모든 모델에서 평가 누락 — 사용자 의도 'VQ 업데이트 없이 학습-평가' 미실행. Task #19 cold-start phase 로 후속 처리 예정."
- 본 phase 의 cold-start 평가 데이터가 mlflow run 885b2ae 의 metrics/ 에 부재 (cold_pape_*, cold_hr1_* 메트릭 미존재 확인).
- 따라서 falsification 도, supporting 도 결정 불가.
(revision 1 정정) cold-start 평가의 위상: - Cold-start 평가는 H10-4 의 정의된 평가 step. 본 in-fed 결과로 sidestep 할 수 없음. - in-fed PAPE 순위 (E1 < E4 < E2) 가 cold-start 에서 반전될 가능성을 사전 단정하지 않음. cold-start 와 in-fed 는 평가 분포 자체가 다른 step 이며 (각각 50 가구 few-shot 168h vs Train 50 가구 in-distribution), 둘 사이 순위 일치를 가정할 사전 근거 없음. - 따라서 H10-4 판정은 cold-start 평가 (Task #19) 완료 시까지 절대 보류.
9.2 H10-3 (RQ collapse 회피)¶
판정: 본 보고서 직접 평가 불가 (E3 SCINet+RQ status=FAILED). 단, E4 PQ 의 4 sub-space 분할이 collapse 회피했는가는 부분적 미충족 — 4 sub 모두 utilization 평균 12-16 % 박스권 (≥ 20 % 임계 미달). PQ 의 sub-space 분할이 flat VQ M=64 (d_total=64 단일) 대비 collapse 를 더 잘 회피했는지는 본 phase 에서 제어군 부재로 결정 불가.
9.3 H10-5 (구조 정합성)¶
판정: 부분적 반증 우위 (점추정 기준).
- "정합" 조합 (E1-E4) 의 PAPE 점추정 평균 = (55.01 + 84.97 + (E3 미상) + 67.59) / n. E3 결측 시 3-모델 평균 = 69.19.
- "비정합 swap" 조합 4 개 (NBEATSx+PQ, NHITS+RQ, SCINet+DecompCB, Crossformer+FreqBand) 는 v10-02 §4.3 에서 "smoke 1-apt × 1-seed 만 수행" 으로 계획되었으나 본 phase 에서 수행 여부 mlflow 미확인.
- E4 단독으로 H10-5 를 판정할 수 없음. 단 동일 backbone 비교 (E4 vs B4 noVQ +25.78 %p 악화) 는 "PQ 가 Crossformer 와 정합" 명제의 점추정 반증 우위로 해석 가능.
10. 통계적 / 외부 유효성 한계¶
10.1 단일 seed 한정 (R3 정책, revision 1 보강)¶
- seed=42 단일 점추정. 3-seed std / p-value / CI 일절 보고하지 않음 (v9-06 Major 2 / v10-02 §11 R3 / v9-06 revision 1 교훈 적용).
- seed=7 run 인지 (revision 1 신규 disclose):
- mlflow run_id
ac3841df...(run_nameE4_Crossformer_PQ_seed7) 가 v10-multi-model-vq experiment 에 존재. - status = KILLED (FINISHED 아님). 즉 학습 미완료 상태로 종료된 run.
- 본 보고서는 KILLED run 의 partial metrics 를 sanity-check 용도로 인용하지 않음 (정상 종료 보장 부재).
- sanity-check 미수행 disclose: seed=7 의 정상 종료 run 이 부재하므로, seed 변동에 대한 robustness 검증을 본 보고서에서 수행할 수 없었음. 후속 phase 에서 seed=7 / seed=123 의 정상 종료 run 확보 후 multi-seed 비교 권고.
- 단 +25.78 %p 의 단일 방향성 (악화) 이 명확하므로 추가 seed 가 결론을 뒤집을 가능성은 매우 낮다.
10.2 cold-start 평가 부재¶
- H10-4 검증 자체가 불가능. 본 보고서의 "E4 가 PQ 1위 아님" 결론은 in-fed 기준이며, cold-start 의 H10-4 결론은 Task #19 완료 시까지 보류 (§9.1 정정 사항 참조).
10.3 설계 vs 구현 갭¶
- v10-02 §3.6 명세 (d_model=256, seg_len=6, e_layers=3) 와 실제 구현 (d_model=64, seg_len=4, e_layers=2) 차이는 본 보고서가 명시 disclose 한 사안. 또한 v9-06 Crossformer baseline 의 d_model=512 와 비교 시 v10 E4 는 8× capacity 축소 (§8.2). 이 차이는 capacity 축소 → underfitting / misspecification 진단을 어렵게 만든다.
10.4 v10-03 split unification 영향¶
- v10-03 interim 시점 split=70/10/20 으로 통일됨. E4 는 처음부터 70/10/20 으로 학습 → split unification 이후 결과로 그대로 valid. 단 v10-03 §2 "부분 결과 (80/10/10)" 의 E4 PAPE 62.61 vs 본 보고서 E4 PAPE 67.59 차이 (+4.98 %p) 는 split 차이 + 가구 수 / sample 수 차이로 발생. 본 보고서의 67.59 가 v10 정식 기준 (70/10/20).
10.5 best_val < test 음의 gap (revision 1 신규)¶
- §8.3 의 systemic 가능성 — main / simple 양쪽에서 동일 방향 (test < best_val) 발생.
- 본 보고서는 E4 단일 모델 분석으로 systemic 여부를 단정하지 못함. reporter 합본 시 v10 다른 모델 (E1/E2/B 시리즈) 의 동일 패턴 여부 비교 권고.
11. 시각화 및 산출물¶
본 보고서는 분석 텍스트 단독이며, 시각화는 reporter 단계에서 v10-04 figures 로 생성 예정. 권고 figure 목록:
- Fig 1: E4 round-별 4 sub utilization line plot (sub_1/2/3/4 각각, x=round, y=util%). y=20% 임계선 표시.
- Fig 2: E4 round-별 4 sub commitment_loss line plot. sub_4 가 가장 낮은 raw loss 임을 가시화.
- Fig 3: E4 vs B4 vs (E1/E2) PAPE / HR@1 bar chart. v9-05/06 Strict 임계선 표시.
- Fig 4: E4 round-별 val_pape 추이 (72-80 박스권 fluctuation 가시화).
- Fig 5 (revision 1 신규): E4 main vs E4_simple ablation 의 4-metric (PAPE / HR@1 / HR@2 / 4 sub utilization) 비교 bar chart. sub_2/3/4 의 simple 0.0625 고정 vs main 변동을 가시화.
mlflow artifact (CLAUDE.md MLflow Logging Rules 강제):
- best checkpoint: 885b2ae059d64705a873af8d4e5245ba/artifacts/checkpoints/E4_Crossformer_PQ_seed42_best.pt (확인 필요, 본 분석에서 직접 검증하지 않음).
- y_true / y_pred .npy: 885b2ae059d64705a873af8d4e5245ba/artifacts/predictions/ 경로 존재 추정 (engineer 측 구현 contract 확인 필요).
12. 결론 및 후속 조치¶
12.1 E4 단독 결론 (revision 1)¶
- E4 Crossformer+PQ 는 v9-05/06 Strict gating (PAPE ≤ 43 AND HR@1 ≥ 37) 양 축 모두 −24.6 %p / −25.7 %p 위반 으로 strong FAIL.
- 동일 backbone noVQ baseline (B4) 대비 PAPE +25.78 %p / HR@1 −7.27 %p 악화. PQ 이식이 Crossformer 에 adverse intervention (점추정 기준).
- sub_4 비대칭 주입 (commit×1.5 + γ=0.85) 은 dead-zone 의 원인이 아니라 HR@1 유지에 essential 한 인자 — E4_simple ablation 에서 비대칭 주입 제거 시 HR@1 11.30 → 2.86 폭락, sub_2/3/4 가 1 codeword 로 collapse (utilization 0.0625 고정). 본 revision 1 의 핵심 정정 사항.
- 30 round 내내 val_pape 72-80 박스권 fluctuation, 수렴 근거 부재. best_val_pape > test_pape 의 음의 gap (main −5.23 pp, simple −8.86 pp) 이 systemic 가능성 (§8.3, §10.5).
- 통신 효율 (bytes_per_round 4,096, B4 대비 −99.10 %) 은 v10 최저로 매력적이나, +25.78 %p PAPE trade-off 는 수용 불가.
12.2 H10-4 판정¶
NOT_TESTED. cold-start 평가 (Task #19) 미실행. cold-start 는 H10-4 의 정의된 평가 step 이며 in-fed 결과로 sidestep 할 수 없음. cold-start 평가 완료 후 재판정 필수.
12.3 후속 조치 권고 (revision 1, critic Major 5/Critical 반영)¶
- Task #19 cold-start 평가 우선 수행 (revision 1 정정): cold-start 평가는 H10-4 검증을 위한 정의된 평가 step. in-fed 결과 (E4 가 PQ 1위 아님) 로 cold-start 결론을 사전 단정하거나 평가를 sidestep 하지 않는다. orchestrator 는 Task #19 cold-start 평가를 우선순위로 수행 후 H10-4 재판정 권고.
- E4 의 d_model 설계 갭 disclosure: v10-02 §3.6 명세 (d_model=256) 와 구현 (d_model=64) 차이, 그리고 v9-06 Crossformer baseline (d_model=512) 대비 v10 E4 의 8× capacity 축소를 reporter 단계에서 명시. 후속 phase 에서 설계 명세대로 재학습할지는 orchestrator 결정.
- Crossformer + 단변량 조합 폐기 검토: v9-05/06/v10 3 phase 에서 일관되게 FAIL. ADR-011 (suspended) 후보로 "Crossformer 는 multivariate 축 재설계 시에만 재시도" 명시 권고.
- ~~PQ peak 특화 주입 설계 재검토 (commit×0.5 약화)~~ 삭제 (revision 1): 초안의 "sub_4 commit×0.5 약화" 권고는 §5.3 의 ablation 결과 (E4_simple HR@1 폭락) 로 정반대 방향으로 falsified. 약화가 아니라 강화 또는 다른 주입 위치 (e.g. 전 sub 공유 attention head, 또는 sub_4 commit×2.0 등) 가 후속 검증 대상. 단 본 보고서는 권고를 단정하지 않으며, 향후 ablation 설계 권고로 격하.
- 3-seed 확장 / seed=7 run 재실행: R3 트리거 미충족이나, seed=7 run (ac3841df) 이 status=KILLED 로 sanity-check 불가능 한 상태. seed=7 / seed=123 정상 종료 run 확보를 후속 phase 에서 우선 수행 권고. multi-seed 결과 확보 후 R3 trigger (정합 mean < 비정합 mean Δ ≥ 2%p) 만족 시 정식 통계 비교 가능.
- Sub_4 비대칭 주입의 일반화 (revision 1 신규): §5.3 의 발견 (commit×1.5 + γ=0.85 이 PQ sub-space 분리에 essential) 은 PQ 외 다른 VQ 전략에도 적용 가능한 가설. 후속 ablation 으로 (a) commit β sweep (×0.75 / ×1.0 / ×1.5 / ×2.0), (b) γ sweep (0.80 / 0.85 / 0.90 / 0.95), (c) 비대칭 주입 위치 변경 (sub_1 vs sub_4) 의 3 차원 ablation 권고.
12.4 본 보고서가 답하지 못한 것¶
- E3 SCINet+RQ 결과 부재 (status=FAILED). H10-3 직접 검증 실패.
- cold-start 평가 미실행. H10-4 검증 보류.
- 비정합 4 swap 조합 (NBEATSx+PQ 등) 미실행 추정. H10-5 점추정 mean 비교 불가.
- E4 의 best checkpoint / y_true·y_pred npy artifact 직접 검증 미수행 (mlflow artifact 디렉토리 inspect 만 수행).
- seed=7 / seed=123 정상 종료 run 부재 → multi-seed sanity-check 불가능.
- best_val < test 음의 gap 의 systemic 진단 미수행 (E4 단일 모델 한정으로 가능성만 지적).
13. 메트릭 요약표 (재인용용)¶
| 항목 | 값 |
|---|---|
| run_id (main) | 885b2ae059d64705a873af8d4e5245ba |
| run_id (simple ablation) | 88676ef73e494f6ebe577c32cbd66936 |
| experiment_id | 738860791398377455 (v10-multi-model-vq) |
| split_version | v10 (70/10/20) |
| seed | 42 (단일, seed=7 run KILLED) |
| n_train | 50 |
| backbone | Crossformer (d_model=64, seg_len=4, e_layers=2, n_heads=4) |
| backbone capacity vs v9-06 | 8× 축소 (v9-06 d_model=512) |
| vq_strategy | ProductQuantization (4 sub × M=16, d_sub=16) |
| peak_alpha / peak_beta | 2.0 / 0.1 |
| fl_rounds | 30 |
| local_epochs / local_lr | 3 / 1e-3 |
| commitment β per sub (main) | 0.25 / 0.25 / 0.25 / 0.375 |
| Memory Alignment γ per sub (main) | 0.98 / 0.95 / 0.90 / 0.85 |
| commitment β per sub (simple ablation) | 0.25 / 0.25 / 0.25 / 0.25 (균등) |
| Memory Alignment γ per sub (simple ablation) | 0.95 / 0.95 / 0.95 / 0.95 (균등) |
| test_pape (main) | 67.59 |
| test_pape (simple) | 64.66 |
| test_hr_tol1 (main) | 11.30 |
| test_hr_tol1 (simple) | 2.86 (main 대비 −8.44 pp 폭락) |
| test_hr_tol2 (main) | 17.44 |
| HR@2 / HR@1 ratio (main) | 1.54 (4 모델 중 최저) |
| test_mse (main) | 0.7901 |
| test_mae (main) | 0.6103 |
| best_round (main) | 23 |
| best_val_pape (main) | 72.82 |
| best_val − test gap (main) | −5.23 pp (test 가 더 낮음, 음의 gap) |
| best_val − test gap (simple) | −8.86 pp (동일 방향) |
| bytes_per_round | 4,096 |
| pape_per_kb | 18.82 |
| hr1_per_kb | 3.02 |
| 4 sub utilization 평균 (main, 30 round) | 13.4 / 16.0 / 12.5 / 12.0 % |
| 4 sub utilization (simple, 30 round) | 8.5 / 6.25 (1/16 고정) / 6.25 / 6.25 |
| Strict / Watch / Collapse-Free | FAIL / FAIL / FAIL |
| Peak-Specialization | 분리 metric 부재 (간접 증거: §5.3 ablation HR@1 4× 차이 → essential) |
| 통신 효율 | PASS (v10 최저) |
| H10-4 판정 | NOT_TESTED (cold-start 평가 미실행, 정의된 step, sidestep 금지) |