콘텐츠로 이동

v10 exp-expert

v10-04 E1 NBEATSx + DecompCB Single-Run Analysis

Source: report/version10/exp-expert/v10-04_E1_NBEATSx_DecompCB_analysis.md

v10-04 E1 NBEATSx + DecompCB Single-Run Analysis (revision 1)

0. 한 줄 결론

E1은 단일 seed=42 점추정에서 test_pape=55.01, HR@1=15.71 로 동일 backbone no-VQ baseline B2(46.38 / 17.14) 대비 +8.63 PAPE / -1.43 HR@1 격차 관찰, Local no-FL Phase1 NBEATSx(33.01 / 19.58) 대비 +22.00 PAPE / -3.87 HR@1 격차. 이 격차들이 systematic 한지 단순 seed 변동 (v9-06 NBEATSx CI 폭 ≈ 7.75%p, R5 reference) 안인지 단일 seed 점추정으로는 분리 불가 — 3-seed 확장 후 재판정 필요. H10-2 (trend block basis expansion이 alignment anchor)는 본 run에서 검정 불가 — falsification 메트릭(trend/generic θ-drift L2 Wilcoxon) 미로깅 + trend CB 자체가 inherent sparse 표현 공간(n_polynomials=3)이라 utilization-based 간접 추론도 결정적이지 않음. 통신량은 -90.6% (B2 262,736 → 24,576 bytes/round) 절감 사실 확인. 본 보고서는 점추정 한정 사실 만 기술하며, 본 revision 1 cycle 에서 E1_simple ablation (run_id 8f344fa9) 비교를 §3.5 로 통합 — 그 결과 "C1+C2+C3+M1 주입사항이 effective"라는 narrative 는 6변수 동시 변경 묶음으로 격하되었다.


1. 비교 baseline 정렬 (단일 seed=42, split v10-7102, 50가구 동일)

v10-04 E2 NHITS + Frequency-Band Codebook — 단독 분석

Source: report/version10/exp-expert/v10-04_E2_NHITS_FreqBand_analysis.md

v10-04: E2 NHITS + Frequency-Band Codebook — 단독 분석

0. Executive Summary

  • 결과: E2 (MinimalNHITS + FreqBandCB(low/mid/high) × M=32 × d=64, FedAvg + per-band Memory Alignment γ=0.98/0.95/0.85, peak-α=2.0, VQ_high_loss × 2)는 30 round 학습 후 test_pape=84.97%, test_hr1=13.22%, test_hr2=18.41%, test_mse=0.4816 로 종료. v10 VQ 4종 중 PAPE 워스트 (E1=55.01, E4=67.59, E2=84.97).
  • B3 NHITS noVQ 대비 +40.31 PAPE, v9-01 NHITS recap 39.26 대비 +45.71 PAPE, B0 DLinear Local 42.51 대비 +42.46 PAPE. v10 frequency-band 이식이 동일 backbone 무-VQ 대비 일관되게 악화.
  • H10-1 판정 = FAIL (강한 형태). 검증 기준 두 축 — PAPE < B0=42.51 그리고 high-freq CB util > 50% (설계서 §1.2) — 모두 위반. high-freq CB 평균 util 6.47%, peak window vs non-peak window 분리 로깅 자체가 누락(설계서 §9.2 명세 미구현)이라 가설의 정성 증거조차 수집 불가.
  • 3-band 동시 collapse: round 0 부터 low/mid/high 모두 util 5–6% 출발. 30 round 동안 low가 11.8%까지 회복, mid 10.6%, high는 6.5% 이하 유지(오히려 r=18 이후 더 하락). collapse alert가 매 round 3 band 모두에서 트리거.
  • best_round=19, best_val_pape=307.76% (z-score scale validation 기준) — round 20–30 에서 추가 악화. 학습 발산 패턴.
  • 결정적 발견 (smoking gun): 예측 분포가 평탄화 collapse. y_pred 평균 0.25 vs y_true 평균 0.39, peak_pred 평균 0.31 vs peak_true 평균 2.01 [정의 (A) window-wise max 후 평균; 정의 (B) pred_at_argmax 12.5%, 정의 (C) overall max 32.6%로도 평탄화 일관 확인 §3.3.1] — 모델이 peak 의 약 15% 진폭만 예측. std 비율 0.45/0.73=0.61 (per-household ratio mean=0.27, # ratio<0.20 = 24/50, broad-based collapse §3.3.2). y/ŷ correlation 0.411. 즉 "peak-α=2.0 + VQ_high×2" 가중이 작동했음에도 quantization noise 와 3-stack additive 합성이 평탄한 평균 회귀 예측을 강화.
  • E2_simple ablation (revision 1 통합): weighting 균일 + K-means++ 비활성 변형에서 PAPE 68.35 (본 84.97 대비 -16.62) 로 표면 개선처럼 보이나, MSE 1.40 (본 0.48 대비 +191% 악화) / std_ratio 0.066 (1/10 더 평탄) / corr -0.003 / best_round=0 으로 더 극단적 단조 상수 출력 collapse 임이 확인. PAPE 개선은 분모-분자 비율에 단조 상수가 우연히 favorable 했기 때문. 4 후보 (3-stack additive / VQ_high×2 / γ=0.85 / K-means++ cliff) 중 어느 것도 simple 로 분리되지 않음. "E2 drop, v11 STFT/wavelet 재설계" 결론은 simple 결과로 약화되지 않고 강화 (§3.3.4).
  • 통신량 trade-off: bytes_per_round 24,576 (B3 NHITS noVQ 90,912 대비 −73.0%) — 그러나 PAPE +40.31. 통신 절감 대비 성능 손실 비율이 v10 4 E* 중 가장 비현실적.
  • 다음 단계 권고: E2 drop. v11 에서 (a) FreqBandCB 를 명시적 STFT/wavelet 기반 frequency 분해로 재설계, (b) NHITS 의 hierarchical additive 합성과 VQ noise 의 상호작용 회피 (예: residual quantization, 또는 마지막 stack 만 VQ 이식), (c) cb_util_{band}_{peak|nonpeak} 로깅 의무화 — 가설 검증의 정성 증거 수집 자체가 불가능했던 phase 설계 결함 시정.

v10-04 E3 SCINet+RQ 단독 분석 (final / round 30 완료, revision 1)

Source: report/version10/exp-expert/v10-04_E3_SCINet_RQ_analysis.md

v10-04: E3 SCINet + Residual Quantization — Final 분석 (revision 1)

본 보고서는 E3 학습 종료 (round 30 완료, FINISHED) 시점의 최종 판단이다. 모든 수치는 round 30 종료 후 MLflow 기록 기준 점추정이며, seed=42 단일이다. exp-critic CONDITIONAL 판정에 따른 revision 1 cycle 반영본 — 핵심 수정 사항: (1) 잠정 → final 결과 갱신, (2) "C2 dead restart 효과" 가짜 인과 제거, (3) HR@1 baseline 출처 (Phase1 NF Local) 정정, (4) L1 dead 3원인 교집합 약화, (5) v9-06 SCINet 대비 후퇴 정량화.


v10-04 E4 Crossformer + Product Quantization — 단독 분석 (revision 1)

Source: report/version10/exp-expert/v10-04_E4_Crossformer_PQ_analysis_v2.md

v10-04 E4 Crossformer + PQ — 단독 분석 (revision 1)

본 보고서는 v10 phase 의 E4 Crossformer + Product Quantization (4 sub × M=16, d_sub=16) 단일 run 결과 분석이다. 담당 가설은 H10-4 (cold-start 50 가구에서 Crossformer+PQ 가 4 모델 중 PAPE 1위) 이나, cold-start 평가가 미실행 (Task #19 보류) 이므로 H10-4 는 검증 보류 (NOT TESTED) 한다. 점추정만 보고하며, seed=42 단일이므로 통계적 유의 주장은 일절 하지 않는다 (v9-06 Major 2 교훈, R3 정책).

Revision 1 요약 (critic CONDITIONAL PASS 대응)

# Critic 지적 본 revision 처리 위치
Critical §5.3 sub_4 peak→dead 가설을 E4_simple ablation 이 정반대로 falsify §5.3 전면 재서술 (sub_4 비대칭 주입은 dead-zone 원인이 아니라 HR@1 유지에 essential) + §12.3-(4) commit×0.5 약화 권고 삭제 §5.3, §12.3
Major 1 v9-06 비교에서 d_model 8× 축소 (64 vs 512) 미disclose §8.2 비교표에 d_model / e_layers 차이 명시 + 정량화 시도 §8.2
Major 2 best_val < test 음의 gap 이 main+simple 양쪽에서 동일 방향 → split systemic 가능성 §9 (구 §6.2 학습 dynamics 진단 확장) + §10.5 신설 §9, §10.5
Major 3 HR@2 / HR@1 ratio 분석 부재 §3.3 신설 (E4=1.54 가 4 모델 최저 → peak 영역 specifically poor) §3.3
Major 4 seed=7 run 인지 + sanity-check 미수행 disclose §10.1 보강 (seed=7 status=KILLED 명시) §10.1
Major 5 §12.3-(1) cold-start ROI 권고가 H10-4 정의된 step 을 sidestep §12.3-(1) 정정 (cold-start 는 H10-4 검증 필수 step) §12.3

v10-04 E4 Crossformer + Product Quantization — 단독 분석

Source: report/version10/exp-expert/v10-04_E4_Crossformer_PQ_analysis.md

v10-04 E4 Crossformer + PQ — 단독 분석

본 보고서는 v10 phase 의 E4 Crossformer + Product Quantization (4 sub × M=16, d_sub=16) 단일 run 결과 분석이다. 담당 가설은 H10-4 (cold-start 50 가구에서 Crossformer+PQ 가 4 모델 중 PAPE 1위) 이나, cold-start 평가가 미실행 (Task #19 보류) 이므로 H10-4 는 검증 보류 (NOT TESTED) 한다. 점추정만 보고하며, seed=42 단일이므로 통계적 유의 주장은 일절 하지 않는다 (v9-06 Major 2 교훈, R3 정책).


0. Executive Summary