콘텐츠로 이동

Source: report/version10/reporter/v10-05_phase_summary.md

v10 Phase 종합 보고서: VQ Multi-Model Ablation의 Negative Result

0. Executive Summary

v10 phase는 ADR-010에 의거하여 4종 (모델 × VQ 구조) 조합 — NBEATSx+DecompCB (E1), NHITS+FreqBand (E2), SCINet+RQ (E3), Crossformer+PQ (E4) — 의 정합성을 평가하기 위해 설계되었다. 50가구 in-fed split (7:1:2)에서 19개 모델 (Phase1 7 Local baseline + B0~B4 5 baseline + 4 VQ + 4 VQ_simple = 20 중 가용 19) 의 동시 비교를 수행한 결과, 다음 4가지가 확인되었다:

  1. VQ 4종 모두 baseline FedAvg 대비 PAPE 점추정 악화 (E1 +8.63, E2 +40.31, E4 +25.78; E3는 noVQ baseline 부재).
  2. Codebook collapse가 4 모델 모두에서 동시 발생 (E1 9.14%, E2 5–7%, E3 26.54%, E4 sub_3/4 12–14%) — 모델 변경만으로는 V4/V5에서 관찰된 collapse 회피 불가능.
  3. ADR-010의 핵심 가설 H10-1~5 모두 FAIL 또는 검정 불가:
  4. H10-1 (E2 high-freq peak): broad-based collapse로 강한 FAIL
  5. H10-2 (E1 trend anchor): drift metric 미로깅 → 검정 불가 → Watch (사후성 정의 비고)
  6. H10-3 (E3 RQ collapse 회피): util 26.54% << 50% threshold → FAIL
  7. H10-4 (E4 PQ cold-start): cold-start 평가 미실행 → NOT_TESTED
  8. H10-5 (정합성): seed=42 단일 → 통계 검정 불가
  9. Simple ablation (C/M 모두 제거) 6변수 묶음이라 component 분리 불가. E2_simple은 PAPE만 보면 본판 대비 개선되었으나 다축 검증 (MSE 1.40, std_ratio 0.066, corr -0.003, best_round=0)으로 "더 극단적 단조 상수 collapse" 로 판정.

판정: ADR-010의 multi-model VQ trial은 negative result로 종료한다. v11 phase에서는 VQ 이식 노선을 폐기하고 (① on-device lightweight student, ② peak-aware no-VQ aggregation, ③ Chronos-prior + VQ residual) 중 ADR-011로 새 노선을 정의할 것을 권고한다.

정직성 표명: 본 보고서의 모든 비교는 점추정 1 seed (=42) 에 기반한다. systematic gap의 통계 유의성은 검증되지 않았다. v9-06의 톤을 따라 "negative result는 학술적으로 contribution"이라는 입장을 유지한다.


1. Phase 진행 요약

1.1 배경 및 동기

  • ADR-009 (v9 baseline ext) 결과: NF SOTA 7종 in-fed Local 비교에서 NBEATSx PAPE 1위 (34.58, 95% CI [30.71, 38.46]). BUT 4종 KD 시도 모두 통계적 비유의 (project memory: KD 연구 현황).
  • ADR-010 (2026-04-24): 단일 모델 + 단일 VQ 패턴 트라이얼을 폐기하고, 모델 × VQ 구조 정합성을 4 조합으로 동시 검증. v9 split (7:1:2)을 그대로 채용해 v9-06과 직접 비교 가능하도록 통일.

1.2 실험 스케줄

Stage 일자 산출
Stage 0 (split 통일) 2026-04-25 v9 split 정합성 확인 (NBEATSx Local PAPE 33.01 ∈ v9 95% CI)
Stage 1 dispatch 2026-04-25 4 engineer 병렬 dispatch (E1~E4)
Stage 1 run 2026-04-25 ~ 04-26 8 run 완료 (4 본판 + 4 simple ablation)
Stage 1 expert 1차 2026-04-26 4 expert analysis 초안
Stage 1 critic 2026-04-26 3 critique (E4는 task notification만)
Stage 1 expert revision 2026-04-26 E1/E2/E3/E4 v2 수정판
Reporter 종합 2026-04-26 본 보고서

1.3 Critic 1차 진입의 근본 위반 (memory 적용)

  • feedback_gate_backtest_pattern: threshold 보고 시 v(N−1) 분포 back-test 통계 동반 필수 — 본 보고서 §4.3에 통계 검정 불가 사유 명시
  • multimode_collapse_ablation_undivisible: simple ablation은 6변수 묶음으로 component 분리 불가 — §5의 F6에 명시
  • ablation_reverse_falsification_pattern: ablation이 본판보다 좋아 보이면 다축 검증 (MSE/std_ratio/corr/best_round) 으로 collapse 패턴 확인 — E2_simple 케이스에 적용

2. 19 모델 결과 표 종합 (test 기준 ranking)

⚠️ paradigm mismatch 주의: §2.1 (Local, no FL) 과 §2.2/§2.3 (FL) 은 다른 학습 paradigm. 직접 순위 비교는 split이 동일해도 의미 한정적.

2.1 Local Baseline (per-household, no FL) — Phase1 + B0

Rank 모델 PAPE HR@1 HR@2 MSE
1 Phase1 NBEATSx Local 33.01 19.58 29.34 0.6105
2 Phase1 NHITS Local 37.23 19.66 29.45 0.5734
3 B0 Local DLinear 40.34 22.43 0.4755
4 Phase1 PatchTST Local 43.94 22.49 31.42 0.5097
5 Phase1 TimesNet Local 44.12 21.13 31.14 0.5239
6 Phase1 TFT Local 44.99 14.44 22.97 0.6164
7 Phase1 iTransformer Local 45.21 20.76 30.58 0.5061

NBEATSx Local 1위 재현 (v9-06 점추정 34.58과 일치, v9 CI [30.71, 38.46] 내 정상). Stage 0 split 통일 검증 통과.

2.2 FL no-VQ Baseline (FedAvg + Memory Alignment, no codebook)

Rank 모델 PAPE HR@1 MSE
1 B4 FedAvg Crossformer 41.81 18.57 0.8397
2 B1 FedAvg DLinear 44.56 17.14 0.7767
3 B3 FedAvg NHITS 44.66 17.14 0.7732
4 B2 FedAvg NBEATSx 46.38 17.14 0.8083

→ B5 (FedAvg SCINet) 미실행. B 시리즈 전체가 §2.1 Local NBEATSx 33.01 대비 8~13 PAPE 열위 — FL paradigm 자체가 50가구 in-fed에서 hurt (v9-06 경향 재현).

2.3 FL VQ 주입판 (C1+C2+C3+M1 = 6변수 묶음)

모델 PAPE HR@1 HR@2 MSE best_round bytes/round
E3 SCINet+RQ 49.67 20.21 31.66 0.493 12,288
E1 NBEATSx+DecompCB 55.01 15.71 0.807 16 24,576
E4 Crossformer+PQ 67.59 11.30 17.44 0.790 23 4,096
E2 NHITS+FreqBand 84.97 13.22 0.482 19 24,576

E3가 4 VQ 중 점추정 1위. 단, B 시리즈 baseline 1위 (B4 41.81) 대비 +7.86 PAPE 열위. SCINet은 §2.1 Phase1에 미포함 (NF 패키지 외) → noVQ FL baseline 부재.

2.4 FL VQ Simple ablation (C 모듈 + M 모듈 모두 제거 = 6변수 동시 OFF)

모델 PAPE HR@1 HR@2 MSE corr std_ratio best_round
E3_simple 50.76 14.70 24.03 0.546
E1_simple 61.67 14.29 0.923
E4_simple 64.66 2.86 10.00 1.008
E2_simple 68.35(↑개선?) 12.31 1.404(악화) -0.003(상수 회귀) 0.066(평탄) 0

→ E2_simple은 PAPE 단축으로 본판 84.97 대비 개선처럼 보이나, 다축 검증으로 "더 극단적 단조 상수 collapse" 확정. PAPE만 신뢰하면 위양성 (memory: ablation_reverse_falsification_pattern 적용 사례).


3. 4 가설 판정 (Critic Revision 후 최종)

가설 ID 모델 가설 내용 revision 1 판정 판정 근거
H10-1 E2 NHITS+FreqBand High-freq band가 peak amplitude 보존 FAIL (강한) 50가구 중 24개 std_ratio < 0.20 — broad-based collapse. high band cb_util 5–7%. peak std_ratio 0.066. corr 0.41 약함. cb_util_band_peak/nonpeak 분리 미로깅 (구현 누락)
H10-2 E1 NBEATSx+DecompCB Trend codebook이 trend stem를 anchor Watch (검정 불가) trend_theta_drift_l2_round_* 미로깅 (§9.3 spec 미준수). 정성 증거: T util 5.05% (가장 dead), S util 17.43%, G 9.14%. Watch 정의는 사후성 (memory: v9-06 lesson 적용) — 검정 가능했어도 PAPE +8.63 결과로 보면 가설 지지 약함
H10-3 E3 SCINet+RQ RQ residual hierarchy로 collapse 회피 FAIL util L1=11.19/L2=32.25/L3=36.19, mean 26.54% << 50% threshold (axis 1 FAIL). MSE 0.493로 4 VQ 중 1위 (axis 2 PASS) — 두 axis 분리 판정. v9-06 SCINet noVQ 대비 PAPE +7.32, HR@1 -14.27 회귀
H10-4 E4 Crossformer+PQ PQ subspace 독립이 cold-start에 유리 NOT_TESTED cold-start 평가 미실행. d_model 256→64 (4× 축소, spec 위반). full PQ에서 sub_3/4 collapse (12–14%), simple에서는 sub_2/3/4 모두 1/16 고정
H10-5 4 모델 종합 모델별 적합 VQ 구조 존재 (정합성 가설) 검정 불가 seed=42 단일. 점추정 ranking E3 > E1 > E4 > E2는 가능하나 systematic 여부 미검정. ADR-010 R3 트리거 미충족 (3-seed 필요)

4. 핵심 발견 (Critic 수정 반영)

4.1 F1. VQ 4종 모두 baseline FedAvg 대비 PAPE 악화 (점추정)

비교쌍 VQ 모델 PAPE noVQ baseline PAPE Δ PAPE
NBEATSx E1 55.01 B2 46.38 +8.63
NHITS E2 84.97 B3 44.66 +40.31
Crossformer E4 67.59 B4 41.81 +25.78
SCINet E3 49.67 (B5 미실행) n/a

해석: 4 모델 × 4 VQ 구조 모두 점추정으로 baseline FL 대비 악화. 단, systematic 여부는 1 seed로 검정 불가 — ADR-010 R3 트리거 (3-seed 확장) 권고 (§7).

4.2 F2. v9-06 결과 재현 (split 통일 검증)

  • v9-06 NBEATSx Local PAPE 점추정 34.58 (95% CI [30.71, 38.46])
  • v10 7:1:2 split: NBEATSx Local 33.01v9 CI 내 정상 일치

→ Stage 0 split 통일 성공. v10 결과는 v9-06와 직접 비교 가능.

4.3 F3. v9-06 SCINet 대비 v10 E3 회귀 (VQ 이식 negative)

Metric v9-06 SCINet noVQ v10 E3 SCINet+RQ Δ
PAPE 42.35 49.67 +7.32 (악화)
HR@1 34.48 20.21 -14.27 (악화)
MSE 0.510 0.493 -0.017 (개선)

VQ 이식이 SCINet의 peak 능력을 약화 확정. MSE는 약간 개선되었으나 peak 관점 (PAPE/HR@1) 핵심 지표에서 회귀.

4.4 F4. Codebook Collapse 4 모델 동시 발생 (실측 final util)

모델 Codebook Util (각 sub-codebook) 평균/주요 50% threshold
E1 NBEATSx+DecompCB T 5.05% / S 17.43% / G 9.14% T가 가장 dead FAIL
E2 NHITS+FreqBand low 5–7% / mid 5–7% / high 5–7% broad collapse FAIL (가장 심각)
E3 SCINet+RQ L1 11.19% / L2 32.25% / L3 36.19% mean 26.54% FAIL
E4 Crossformer+PQ (full) sub_1~2 정상 / sub_3 14% / sub_4 12% sub_3/4 collapse FAIL (부분)
E4 Crossformer+PQ (simple) sub_2/3/4 모두 1/16 고정 sub_1만 활용 FAIL (극단)

모델 변경 + VQ 구조 변경 모두 V4/V5 collapse 패턴 회피 못 함. 4 모델 모두 50% threshold 미달. ADR-009 KD trial 결과와 일관.

4.5 F5. VQ "평탄 회귀" 변질 (E2 명확)

E2 NHITS+FreqBand 본판:

지표 y_true y_pred ratio
std 0.73 0.61 62% 축소
peak 2.01 0.31 15% 보존만
corr 0.41 (약함)

MSE 함정: E2 MSE 0.482로 4 VQ 중 1위. 그러나 mean regression (분산 축소)로 MSE는 줄지만 peak amplitude는 못 잡음. → PAPE 단일 metric으로 collapse 위양성. multi-axis (PAPE / MSE / std_ratio / corr / peak_ratio) 표준화 필요.

4.6 F6. Simple Ablation 6변수 묶음 분리 불가

simple ablation에서 동시에 OFF되는 컴포넌트:

  1. C1: K-means++ codebook init
  2. C2: dead code restart
  3. C3: L3 β=0.375 commitment loss weight
  4. M1: γ 차등 alignment loss
  5. per-strategy aggregation 가중
  6. uniform_gamma fallback

단일 ablation으로 어느 component가 본판 결과의 driver인지 분리 불가 (memory: multimode_collapse_ablation_undivisible 적용).

E2_simple 특수 케이스 (reverse-falsification 패턴):

지표 E2 본판 E2_simple 변화 해석
PAPE 84.97 68.35 (개선처럼 보임)
MSE 0.482 1.404 +191%
std_ratio (본판도 collapse) 0.066 거의 평탄
corr 0.41 -0.003 단조 상수 회귀
best_round 19 0 학습 진행 자체가 안 됨

→ "ablation이 본판보다 PAPE 좋다"는 표면 결과를 다축 검증으로 "더 극단적 단조 상수 collapse" 로 정정. 변호 거부 (memory feedback: "잠재력 변호 금지" 적용).

4.7 F7. Engineer 구현 누락 4건 (v10-02 spec 미준수)

ID 누락 내역 영향
1 E1: trend_theta_drift_l2_round_* 미로깅 (v10-02 §9.3) H10-2 직접 검증 불가 → Watch로 격하
2 E2: cb_util_{band}_{peak\|nonpeak} 분리 미로깅 (§9.2) H10-1 정성 증거 불가, broad-based collapse는 std_ratio로 우회 확인
3 E3: restart_dead_codes() RQ에 미정의 (다른 3 모델은 구현) C2 (dead restart) 효과 검증 RQ에서 차단
4 E4: d_model 256 → 64 (4× 축소, 명세 위반) E4 결과의 PQ 효과와 capacity 효과 분리 불가

→ Stage 1 재실행 또는 v11 첫 step에서 우선 fix 권고.


5. Critic 수정 반영 정정 사항 (Revision 1 → Final)

본 보고서는 exp-critic 1차 review 후 expert revision을 거친 최종판을 기반으로 한다. revision에서 정정된 항목 일람:

# 1차 expert 주장 Critic 지적 revision 정정
1 "E2_simple이 본판보다 우수 (PAPE 68.35 vs 84.97)" corr -0.003, std_ratio 0.066, best_round 0 → 단조 상수 collapse 정정: E2_simple은 더 극단적 collapse
2 "H10-2 (E1 trend anchor) PASS" drift metric 미로깅, 사후 정의 의심 격하: Watch (검정 불가, 사후성 비고)
3 "H10-3 (E3 RQ) PASS — MSE 1위" util 26.54% threshold FAIL 분리 판정: axis 1 FAIL, axis 2 PASS
4 "VQ가 baseline 대비 systematic 악화" seed=42 단일, CI 없음 격하: 점추정 ranking만, systematic 미검정
5 "E4 PQ가 cold-start에 유리" cold-start 평가 미실행 NOT_TESTED 표기
6 "Apt51 등 특정 가구 cherry-picking 좋음" 50가구 분포로 검증 필요 분포 통계로 대체 (E2 std_ratio<0.20: 24/50가구)

→ memory v9_06_revision1_lessons 학습 적용 (Watch 사후성 병기, CI 통계 겸손, denominator manipulation 격하, cherry-picking 검증 순서).


6. 논문 주장 가능 영역 재정의

ADR-010 H10-1~5는 모두 FAIL/검정 불가지만, 다음 정직한 contribution은 유지 가능:

C1. VQ 이식의 한계 demonstration (Negative Result Contribution)

4 모델 × 4 VQ 구조의 매트릭스 ablation으로 codebook collapse 패턴의 일반성 입증. ADR-009 V4/V5 (NBEATSx+VQ-VAE) 단일 사례에서, v10 multi-model evidence로 확장. 모든 시도된 (모델, VQ 구조) 조합에서 collapse가 50% threshold 위반 — peak forecasting + VQ 이식 노선의 본질적 어려움을 실증.

C2. Memory Alignment의 비대칭 collapse 가속 사례

M1 차등 γ alignment이 E2 high band에서 collapse 가속 (broad 5–7% util). simple ablation에서 std_ratio가 더 악화 (0.066) — memory loss가 평탄화 압력으로 작용한 정성적 증거.

C3. Multi-axis Collapse Evaluation Lesson

PAPE 단일 metric은 평탄 회귀 (mean regression) 를 isolation 못 함. PAPE / MSE / std_ratio / corr / peak_amp_ratio / best_round 6축 검증 표준화 권고. E2_simple 케이스가 명시적 사례로 publishable.

C4. 모델 × VQ 구조 정합성 점추정 순위 (50가구 in-fed, seed=42)

  • E3 SCINet+RQ > E1 NBEATSx+DecompCB > E4 Crossformer+PQ > E2 NHITS+FreqBand
  • 단 1 seed → "tendency" 표현, "significant" 금지. 3-seed 확장 시 systematic 검정 가능.

주장 금지 영역

  • ❌ "VQ가 systematic으로 악화" — seed=42 단일
  • ❌ "RQ가 collapse 회피에 본질적 우월" — util 26.54%로 threshold 미달
  • ❌ "PQ가 cold-start에 효과적" — 평가 미실행
  • ❌ Phase1 NF Local과 v10 FL VQ 직접 우열 비교 — paradigm mismatch

7. 다음 Phase 권고

7.1 v11 Phase 설계 (ADR-011 의무)

ADR-011 작성 필요: VQ 이식 trial 종료 + 새 노선 정의. 후보:

옵션 핵심 가설 우선순위 권고
A. On-device lightweight student 직접 추진 KD/VQ 우회, Chronos teacher → MLP/DLinear student 직접 추출 (v9 Local NBEATSx 33.01 PAPE 보존 목표) P0 (project memory: KD 연구 현황 — 4 KD 시도 비유의 결론 정직 인정 후 lightweight 직접 추출로 전환)
B. Peak-aware FL aggregation (no VQ) M1 γ 차등 alignment만 유지, codebook 제거. baseline FL 41.81 → ? P1
C. Chronos-prior + VQ residual Chronos teacher가 base prediction, VQ는 residual 학습 (v9-04 옵션 C 재고). collapse 압력 약화 가설 P2

7.2 보류 / 폐기

  • Cold-start phase 보류: VQ 4종 모두 in-fed 50가구에서 collapse → cold-start 가구 추가는 collapse 악화만 예상. ADR-011에서 별도 트랙으로 재고려.
  • ADR-010 multi-model VQ 종료: v10 결과로 sufficient evidence, 추가 (모델, VQ) 조합 trial 불필요.

7.3 v10 마무리 보강 작업 (옵션, low priority)

작업 트리거 조건 비용
3-seed 확장 (E1만) ADR-010 R3 트리거 충족, +8.63 PAPE의 systematic 검정 ~6시간 (3 seed × E1 only)
One-out-at-a-time ablation (E3만) 4 VQ 중 점추정 1위라 6변수 중 sensitive 1–2개 isolation 가치 있음 ~10시간 (5 runs × ~2시간)
v10-02 spec 누락 4건 fix logging 부족 / d_model 위반 ~4시간

v11 우선순위가 더 높음. v10 보강 작업은 옵셔널 처리 권고.


8. 참조

8.1 ADR

  • docs/decisions/ADR-009_v9_baseline_ext.md (선행)
  • docs/decisions/ADR-010_v9_baseline_to_v10_vq_multi_model.md
  • docs/decisions/ADR-011_v10_to_v11_*.md차후 작성 예정

8.2 설계서 / 중간 보고서

  • report/version10/lab-leader/v10-01_fl_aspect.md — FL aspect 사전 분석
  • report/version10/lab-leader/v10-02_vq_multi_model_design.md — 정식 설계 (4 모델 × 4 VQ 구조)
  • report/version10/lab-leader/v10-03_interim_report.md — Stage 0 split 통일 검증

8.3 Expert / Critic 보고서

  • report/version10/exp-expert/v10-04_E1_NBEATSx_DecompCB_analysis.md
  • report/version10/exp-expert/v10-04_E2_NHITS_FreqBand_analysis.md
  • report/version10/exp-expert/v10-04_E3_SCINet_RQ_analysis.md
  • report/version10/exp-expert/v10-04_E4_Crossformer_PQ_analysis_v2.md (v2 = revision)
  • report/version10/exp-critic/v10-04_E1_NBEATSx_DecompCB_critique.md
  • report/version10/exp-critic/v10-04_E2_NHITS_FreqBand_critique.md
  • report/version10/exp-critic/v10-04_E3_SCINet_RQ_critique.md
  • (E4 critic은 task notification 형태, 별도 critique 파일 없음)

8.4 선행 reporter 보고서 (톤 참조)

  • report/version9/reporter/v9-06_baseline_ext_2_summary.md — 정직한 negative result 보고 패턴

8.5 Critic Memory (적용 사례)

  • .claude/agent-memory/exp-critic/multimode_collapse_ablation_undivisible.md — §4.6 F6에 적용
  • .claude/agent-memory/exp-critic/ablation_reverse_falsification_pattern.md — §4.6 E2_simple 정정에 적용

9. Self-Verification Checklist

  • 19 모델 metric 입력 컨텍스트와 정확히 일치 (PAPE/HR@1/HR@2/MSE 단위 명시)
  • 4 가설 판정 모두 revision 1 후 최종판 반영 (Watch 사후성 비고, axis 분리 판정 포함)
  • denominator manipulation 회피 (memory feedback) — 모든 비교에 절대값 + Δ 병기
  • "잠재력" 변호 금지 — E2_simple 다축 검증으로 정정, 표면 PAPE 변호 거부
  • seed=42 단일이므로 통계 유의성 주장 금지 — 모든 비교에 "점추정" 명시
  • paradigm mismatch (Phase1 Local vs v10 FL) §2.1 헤더에 명시
  • v9-06 reporter 톤 참조 — 정직한 negative result 입장 유지, "negative result도 contribution" 표명
  • Engineer 누락 4건 §4.7에 명시 (E1 drift / E2 cb_util / E3 restart / E4 d_model)
  • 다음 phase 권고에 ADR-011 의무 명시
  • 점추정 ranking 표현 ("tendency"), "significant" 사용 안 함

판정 결론: v10 phase는 ADR-010의 가설을 모두 falsify하는 negative result로 종료한다. 다음 phase는 ADR-011 작성 후 VQ 노선을 폐기하고 on-device lightweight student 직접 추진 (P0) 으로 전환하기를 권고한다.