Source: report/version10/reporter/v10-05_phase_summary.md

v10 Phase 종합 보고서: VQ Multi-Model Ablation의 Negative Result¶

0. Executive Summary¶

v10 phase는 ADR-010에 의거하여 4종 (모델 × VQ 구조) 조합 — NBEATSx+DecompCB (E1), NHITS+FreqBand (E2), SCINet+RQ (E3), Crossformer+PQ (E4) — 의 정합성을 평가하기 위해 설계되었다. 50가구 in-fed split (7:1:2)에서 19개 모델 (Phase1 7 Local baseline + B0~B4 5 baseline + 4 VQ + 4 VQ_simple = 20 중 가용 19) 의 동시 비교를 수행한 결과, 다음 4가지가 확인되었다:

VQ 4종 모두 baseline FedAvg 대비 PAPE 점추정 악화 (E1 +8.63, E2 +40.31, E4 +25.78; E3는 noVQ baseline 부재).
Codebook collapse가 4 모델 모두에서 동시 발생 (E1 9.14%, E2 5–7%, E3 26.54%, E4 sub_3/4 12–14%) — 모델 변경만으로는 V4/V5에서 관찰된 collapse 회피 불가능.
ADR-010의 핵심 가설 H10-1~5 모두 FAIL 또는 검정 불가:
H10-1 (E2 high-freq peak): broad-based collapse로 강한 FAIL
H10-2 (E1 trend anchor): drift metric 미로깅 → 검정 불가 → Watch (사후성 정의 비고)
H10-3 (E3 RQ collapse 회피): util 26.54% << 50% threshold → FAIL
H10-4 (E4 PQ cold-start): cold-start 평가 미실행 → NOT_TESTED
H10-5 (정합성): seed=42 단일 → 통계 검정 불가
Simple ablation (C/M 모두 제거) 6변수 묶음이라 component 분리 불가. E2_simple은 PAPE만 보면 본판 대비 개선되었으나 다축 검증 (MSE 1.40, std_ratio 0.066, corr -0.003, best_round=0)으로 "더 극단적 단조 상수 collapse" 로 판정.

판정: ADR-010의 multi-model VQ trial은 negative result로 종료한다. v11 phase에서는 VQ 이식 노선을 폐기하고 (① on-device lightweight student, ② peak-aware no-VQ aggregation, ③ Chronos-prior + VQ residual) 중 ADR-011로 새 노선을 정의할 것을 권고한다.

정직성 표명: 본 보고서의 모든 비교는 점추정 1 seed (=42) 에 기반한다. systematic gap의 통계 유의성은 검증되지 않았다. v9-06의 톤을 따라 "negative result는 학술적으로 contribution"이라는 입장을 유지한다.

1. Phase 진행 요약¶

1.1 배경 및 동기¶

ADR-009 (v9 baseline ext) 결과: NF SOTA 7종 in-fed Local 비교에서 NBEATSx PAPE 1위 (34.58, 95% CI [30.71, 38.46]). BUT 4종 KD 시도 모두 통계적 비유의 (project memory: KD 연구 현황).
ADR-010 (2026-04-24): 단일 모델 + 단일 VQ 패턴 트라이얼을 폐기하고, 모델 × VQ 구조 정합성을 4 조합으로 동시 검증. v9 split (7:1:2)을 그대로 채용해 v9-06과 직접 비교 가능하도록 통일.

1.2 실험 스케줄¶

Stage	일자	산출
Stage 0 (split 통일)	2026-04-25	v9 split 정합성 확인 (NBEATSx Local PAPE 33.01 ∈ v9 95% CI)
Stage 1 dispatch	2026-04-25	4 engineer 병렬 dispatch (E1~E4)
Stage 1 run	2026-04-25 ~ 04-26	8 run 완료 (4 본판 + 4 simple ablation)
Stage 1 expert 1차	2026-04-26	4 expert analysis 초안
Stage 1 critic	2026-04-26	3 critique (E4는 task notification만)
Stage 1 expert revision	2026-04-26	E1/E2/E3/E4 v2 수정판
Reporter 종합	2026-04-26	본 보고서

1.3 Critic 1차 진입의 근본 위반 (memory 적용)¶

feedback_gate_backtest_pattern: threshold 보고 시 v(N−1) 분포 back-test 통계 동반 필수 — 본 보고서 §4.3에 통계 검정 불가 사유 명시
multimode_collapse_ablation_undivisible: simple ablation은 6변수 묶음으로 component 분리 불가 — §5의 F6에 명시
ablation_reverse_falsification_pattern: ablation이 본판보다 좋아 보이면 다축 검증 (MSE/std_ratio/corr/best_round) 으로 collapse 패턴 확인 — E2_simple 케이스에 적용

2. 19 모델 결과 표 종합 (test 기준 ranking)¶

⚠️ paradigm mismatch 주의: §2.1 (Local, no FL) 과 §2.2/§2.3 (FL) 은 다른 학습 paradigm. 직접 순위 비교는 split이 동일해도 의미 한정적.

2.1 Local Baseline (per-household, no FL) — Phase1 + B0¶

Rank	모델	PAPE	HR@1	HR@2	MSE
1	Phase1 NBEATSx Local	33.01	19.58	29.34	0.6105
2	Phase1 NHITS Local	37.23	19.66	29.45	0.5734
3	B0 Local DLinear	40.34	22.43	—	0.4755
4	Phase1 PatchTST Local	43.94	22.49	31.42	0.5097
5	Phase1 TimesNet Local	44.12	21.13	31.14	0.5239
6	Phase1 TFT Local	44.99	14.44	22.97	0.6164
7	Phase1 iTransformer Local	45.21	20.76	30.58	0.5061

→ NBEATSx Local 1위 재현 (v9-06 점추정 34.58과 일치, v9 CI [30.71, 38.46] 내 정상). Stage 0 split 통일 검증 통과.

2.2 FL no-VQ Baseline (FedAvg + Memory Alignment, no codebook)¶

Rank	모델	PAPE	HR@1	MSE
1	B4 FedAvg Crossformer	41.81	18.57	0.8397
2	B1 FedAvg DLinear	44.56	17.14	0.7767
3	B3 FedAvg NHITS	44.66	17.14	0.7732
4	B2 FedAvg NBEATSx	46.38	17.14	0.8083

→ B5 (FedAvg SCINet) 미실행. B 시리즈 전체가 §2.1 Local NBEATSx 33.01 대비 8~13 PAPE 열위 — FL paradigm 자체가 50가구 in-fed에서 hurt (v9-06 경향 재현).

2.3 FL VQ 주입판 (C1+C2+C3+M1 = 6변수 묶음)¶

모델	PAPE	HR@1	HR@2	MSE	best_round	bytes/round
E3 SCINet+RQ	49.67	20.21	31.66	0.493	—	12,288
E1 NBEATSx+DecompCB	55.01	15.71	—	0.807	16	24,576
E4 Crossformer+PQ	67.59	11.30	17.44	0.790	23	4,096
E2 NHITS+FreqBand	84.97	13.22	—	0.482	19	24,576

→ E3가 4 VQ 중 점추정 1위. 단, B 시리즈 baseline 1위 (B4 41.81) 대비 +7.86 PAPE 열위. SCINet은 §2.1 Phase1에 미포함 (NF 패키지 외) → noVQ FL baseline 부재.

2.4 FL VQ Simple ablation (C 모듈 + M 모듈 모두 제거 = 6변수 동시 OFF)¶

모델	PAPE	HR@1	HR@2	MSE	corr	std_ratio	best_round
E3_simple	50.76	14.70	24.03	0.546	—	—	—
E1_simple	61.67	14.29	—	0.923	—	—	—
E4_simple	64.66	2.86	10.00	1.008	—	—	—
E2_simple	68.35(↑개선?)	12.31	—	1.404(악화)	-0.003(상수 회귀)	0.066(평탄)	0

→ E2_simple은 PAPE 단축으로 본판 84.97 대비 개선처럼 보이나, 다축 검증으로 "더 극단적 단조 상수 collapse" 확정. PAPE만 신뢰하면 위양성 (memory: ablation_reverse_falsification_pattern 적용 사례).

3. 4 가설 판정 (Critic Revision 후 최종)¶

가설 ID	모델	가설 내용	revision 1 판정	판정 근거
H10-1	E2 NHITS+FreqBand	High-freq band가 peak amplitude 보존	FAIL (강한)	50가구 중 24개 std_ratio < 0.20 — broad-based collapse. high band cb_util 5–7%. peak std_ratio 0.066. corr 0.41 약함. cb_util_band_peak/nonpeak 분리 미로깅 (구현 누락)
H10-2	E1 NBEATSx+DecompCB	Trend codebook이 trend stem를 anchor	Watch (검정 불가)	`trend_theta_drift_l2_round_*` 미로깅 (§9.3 spec 미준수). 정성 증거: T util 5.05% (가장 dead), S util 17.43%, G 9.14%. Watch 정의는 사후성 (memory: v9-06 lesson 적용) — 검정 가능했어도 PAPE +8.63 결과로 보면 가설 지지 약함
H10-3	E3 SCINet+RQ	RQ residual hierarchy로 collapse 회피	FAIL	util L1=11.19/L2=32.25/L3=36.19, mean 26.54% << 50% threshold (axis 1 FAIL). MSE 0.493로 4 VQ 중 1위 (axis 2 PASS) — 두 axis 분리 판정. v9-06 SCINet noVQ 대비 PAPE +7.32, HR@1 -14.27 회귀
H10-4	E4 Crossformer+PQ	PQ subspace 독립이 cold-start에 유리	NOT_TESTED	cold-start 평가 미실행. d_model 256→64 (4× 축소, spec 위반). full PQ에서 sub_3/4 collapse (12–14%), simple에서는 sub_2/3/4 모두 1/16 고정
H10-5	4 모델 종합	모델별 적합 VQ 구조 존재 (정합성 가설)	검정 불가	seed=42 단일. 점추정 ranking E3 > E1 > E4 > E2는 가능하나 systematic 여부 미검정. ADR-010 R3 트리거 미충족 (3-seed 필요)

4. 핵심 발견 (Critic 수정 반영)¶

4.1 F1. VQ 4종 모두 baseline FedAvg 대비 PAPE 악화 (점추정)¶

비교쌍	VQ 모델 PAPE	noVQ baseline PAPE	Δ PAPE
NBEATSx	E1 55.01	B2 46.38	+8.63
NHITS	E2 84.97	B3 44.66	+40.31
Crossformer	E4 67.59	B4 41.81	+25.78
SCINet	E3 49.67	(B5 미실행)	n/a

해석: 4 모델 × 4 VQ 구조 모두 점추정으로 baseline FL 대비 악화. 단, systematic 여부는 1 seed로 검정 불가 — ADR-010 R3 트리거 (3-seed 확장) 권고 (§7).

4.2 F2. v9-06 결과 재현 (split 통일 검증)¶

v9-06 NBEATSx Local PAPE 점추정 34.58 (95% CI [30.71, 38.46])
v10 7:1:2 split: NBEATSx Local 33.01 ← v9 CI 내 정상 일치

→ Stage 0 split 통일 성공. v10 결과는 v9-06와 직접 비교 가능.

4.3 F3. v9-06 SCINet 대비 v10 E3 회귀 (VQ 이식 negative)¶

Metric	v9-06 SCINet noVQ	v10 E3 SCINet+RQ	Δ
PAPE	42.35	49.67	+7.32 (악화)
HR@1	34.48	20.21	-14.27 (악화)
MSE	0.510	0.493	-0.017 (개선)

→ VQ 이식이 SCINet의 peak 능력을 약화 확정. MSE는 약간 개선되었으나 peak 관점 (PAPE/HR@1) 핵심 지표에서 회귀.

4.4 F4. Codebook Collapse 4 모델 동시 발생 (실측 final util)¶

모델	Codebook Util (각 sub-codebook)	평균/주요	50% threshold
E1 NBEATSx+DecompCB	T 5.05% / S 17.43% / G 9.14%	T가 가장 dead	FAIL
E2 NHITS+FreqBand	low 5–7% / mid 5–7% / high 5–7%	broad collapse	FAIL (가장 심각)
E3 SCINet+RQ	L1 11.19% / L2 32.25% / L3 36.19%	mean 26.54%	FAIL
E4 Crossformer+PQ (full)	sub_1~2 정상 / sub_3 14% / sub_4 12%	sub_3/4 collapse	FAIL (부분)
E4 Crossformer+PQ (simple)	sub_2/3/4 모두 1/16 고정	sub_1만 활용	FAIL (극단)

→ 모델 변경 + VQ 구조 변경 모두 V4/V5 collapse 패턴 회피 못 함. 4 모델 모두 50% threshold 미달. ADR-009 KD trial 결과와 일관.

4.5 F5. VQ "평탄 회귀" 변질 (E2 명확)¶

E2 NHITS+FreqBand 본판:

지표	y_true	y_pred	ratio
std	0.73	0.61	62% 축소
peak	2.01	0.31	15% 보존만
corr	—	0.41 (약함)	—

MSE 함정: E2 MSE 0.482로 4 VQ 중 1위. 그러나 mean regression (분산 축소)로 MSE는 줄지만 peak amplitude는 못 잡음. → PAPE 단일 metric으로 collapse 위양성. multi-axis (PAPE / MSE / std_ratio / corr / peak_ratio) 표준화 필요.

4.6 F6. Simple Ablation 6변수 묶음 분리 불가¶

simple ablation에서 동시에 OFF되는 컴포넌트:

C1: K-means++ codebook init
C2: dead code restart
C3: L3 β=0.375 commitment loss weight
M1: γ 차등 alignment loss
per-strategy aggregation 가중
uniform_gamma fallback

→ 단일 ablation으로 어느 component가 본판 결과의 driver인지 분리 불가 (memory: multimode_collapse_ablation_undivisible 적용).

E2_simple 특수 케이스 (reverse-falsification 패턴):

지표	E2 본판	E2_simple	변화 해석
PAPE	84.97	68.35	(개선처럼 보임)
MSE	0.482	1.404	+191%
std_ratio	(본판도 collapse)	0.066	거의 평탄
corr	0.41	-0.003	단조 상수 회귀
best_round	19	0	학습 진행 자체가 안 됨

→ "ablation이 본판보다 PAPE 좋다"는 표면 결과를 다축 검증으로 "더 극단적 단조 상수 collapse" 로 정정. 변호 거부 (memory feedback: "잠재력 변호 금지" 적용).

4.7 F7. Engineer 구현 누락 4건 (v10-02 spec 미준수)¶

ID	누락 내역	영향
1	E1: `trend_theta_drift_l2_round_*` 미로깅 (v10-02 §9.3)	H10-2 직접 검증 불가 → Watch로 격하
2	E2: `cb_util_{band}_{peak\\|nonpeak}` 분리 미로깅 (§9.2)	H10-1 정성 증거 불가, broad-based collapse는 std_ratio로 우회 확인
3	E3: `restart_dead_codes()` RQ에 미정의 (다른 3 모델은 구현)	C2 (dead restart) 효과 검증 RQ에서 차단
4	E4: d_model 256 → 64 (4× 축소, 명세 위반)	E4 결과의 PQ 효과와 capacity 효과 분리 불가

→ Stage 1 재실행 또는 v11 첫 step에서 우선 fix 권고.

5. Critic 수정 반영 정정 사항 (Revision 1 → Final)¶

본 보고서는 exp-critic 1차 review 후 expert revision을 거친 최종판을 기반으로 한다. revision에서 정정된 항목 일람:

#	1차 expert 주장	Critic 지적	revision 정정
1	"E2_simple이 본판보다 우수 (PAPE 68.35 vs 84.97)"	corr -0.003, std_ratio 0.066, best_round 0 → 단조 상수 collapse	정정: E2_simple은 더 극단적 collapse
2	"H10-2 (E1 trend anchor) PASS"	drift metric 미로깅, 사후 정의 의심	격하: Watch (검정 불가, 사후성 비고)
3	"H10-3 (E3 RQ) PASS — MSE 1위"	util 26.54% threshold FAIL	분리 판정: axis 1 FAIL, axis 2 PASS
4	"VQ가 baseline 대비 systematic 악화"	seed=42 단일, CI 없음	격하: 점추정 ranking만, systematic 미검정
5	"E4 PQ가 cold-start에 유리"	cold-start 평가 미실행	NOT_TESTED 표기
6	"Apt51 등 특정 가구 cherry-picking 좋음"	50가구 분포로 검증 필요	분포 통계로 대체 (E2 std_ratio<0.20: 24/50가구)

→ memory v9_06_revision1_lessons 학습 적용 (Watch 사후성 병기, CI 통계 겸손, denominator manipulation 격하, cherry-picking 검증 순서).

6. 논문 주장 가능 영역 재정의¶

ADR-010 H10-1~5는 모두 FAIL/검정 불가지만, 다음 정직한 contribution은 유지 가능:

C1. VQ 이식의 한계 demonstration (Negative Result Contribution)¶

4 모델 × 4 VQ 구조의 매트릭스 ablation으로 codebook collapse 패턴의 일반성 입증. ADR-009 V4/V5 (NBEATSx+VQ-VAE) 단일 사례에서, v10 multi-model evidence로 확장. 모든 시도된 (모델, VQ 구조) 조합에서 collapse가 50% threshold 위반 — peak forecasting + VQ 이식 노선의 본질적 어려움을 실증.

C2. Memory Alignment의 비대칭 collapse 가속 사례¶

M1 차등 γ alignment이 E2 high band에서 collapse 가속 (broad 5–7% util). simple ablation에서 std_ratio가 더 악화 (0.066) — memory loss가 평탄화 압력으로 작용한 정성적 증거.

C3. Multi-axis Collapse Evaluation Lesson¶

PAPE 단일 metric은 평탄 회귀 (mean regression) 를 isolation 못 함. PAPE / MSE / std_ratio / corr / peak_amp_ratio / best_round 6축 검증 표준화 권고. E2_simple 케이스가 명시적 사례로 publishable.

C4. 모델 × VQ 구조 정합성 점추정 순위 (50가구 in-fed, seed=42)¶

E3 SCINet+RQ > E1 NBEATSx+DecompCB > E4 Crossformer+PQ > E2 NHITS+FreqBand
단 1 seed → "tendency" 표현, "significant" 금지. 3-seed 확장 시 systematic 검정 가능.

주장 금지 영역¶

❌ "VQ가 systematic으로 악화" — seed=42 단일
❌ "RQ가 collapse 회피에 본질적 우월" — util 26.54%로 threshold 미달
❌ "PQ가 cold-start에 효과적" — 평가 미실행
❌ Phase1 NF Local과 v10 FL VQ 직접 우열 비교 — paradigm mismatch

7. 다음 Phase 권고¶

7.1 v11 Phase 설계 (ADR-011 의무)¶

ADR-011 작성 필요: VQ 이식 trial 종료 + 새 노선 정의. 후보:

옵션	핵심 가설	우선순위 권고
A. On-device lightweight student 직접 추진	KD/VQ 우회, Chronos teacher → MLP/DLinear student 직접 추출 (v9 Local NBEATSx 33.01 PAPE 보존 목표)	P0 (project memory: KD 연구 현황 — 4 KD 시도 비유의 결론 정직 인정 후 lightweight 직접 추출로 전환)
B. Peak-aware FL aggregation (no VQ)	M1 γ 차등 alignment만 유지, codebook 제거. baseline FL 41.81 → ?	P1
C. Chronos-prior + VQ residual	Chronos teacher가 base prediction, VQ는 residual 학습 (v9-04 옵션 C 재고). collapse 압력 약화 가설	P2

7.2 보류 / 폐기¶

Cold-start phase 보류: VQ 4종 모두 in-fed 50가구에서 collapse → cold-start 가구 추가는 collapse 악화만 예상. ADR-011에서 별도 트랙으로 재고려.
ADR-010 multi-model VQ 종료: v10 결과로 sufficient evidence, 추가 (모델, VQ) 조합 trial 불필요.

7.3 v10 마무리 보강 작업 (옵션, low priority)¶

작업	트리거 조건	비용
3-seed 확장 (E1만)	ADR-010 R3 트리거 충족, +8.63 PAPE의 systematic 검정	~6시간 (3 seed × E1 only)
One-out-at-a-time ablation (E3만)	4 VQ 중 점추정 1위라 6변수 중 sensitive 1–2개 isolation 가치 있음	~10시간 (5 runs × ~2시간)
v10-02 spec 누락 4건 fix	logging 부족 / d_model 위반	~4시간

→ v11 우선순위가 더 높음. v10 보강 작업은 옵셔널 처리 권고.

8. 참조¶

8.1 ADR¶

docs/decisions/ADR-009_v9_baseline_ext.md (선행)
docs/decisions/ADR-010_v9_baseline_to_v10_vq_multi_model.md
docs/decisions/ADR-011_v10_to_v11_*.md ← 차후 작성 예정

8.2 설계서 / 중간 보고서¶

report/version10/lab-leader/v10-01_fl_aspect.md — FL aspect 사전 분석
report/version10/lab-leader/v10-02_vq_multi_model_design.md — 정식 설계 (4 모델 × 4 VQ 구조)
report/version10/lab-leader/v10-03_interim_report.md — Stage 0 split 통일 검증

8.3 Expert / Critic 보고서¶

report/version10/exp-expert/v10-04_E1_NBEATSx_DecompCB_analysis.md
report/version10/exp-expert/v10-04_E2_NHITS_FreqBand_analysis.md
report/version10/exp-expert/v10-04_E3_SCINet_RQ_analysis.md
report/version10/exp-expert/v10-04_E4_Crossformer_PQ_analysis_v2.md (v2 = revision)
report/version10/exp-critic/v10-04_E1_NBEATSx_DecompCB_critique.md
report/version10/exp-critic/v10-04_E2_NHITS_FreqBand_critique.md
report/version10/exp-critic/v10-04_E3_SCINet_RQ_critique.md
(E4 critic은 task notification 형태, 별도 critique 파일 없음)

8.4 선행 reporter 보고서 (톤 참조)¶

report/version9/reporter/v9-06_baseline_ext_2_summary.md — 정직한 negative result 보고 패턴

8.5 Critic Memory (적용 사례)¶

.claude/agent-memory/exp-critic/multimode_collapse_ablation_undivisible.md — §4.6 F6에 적용
.claude/agent-memory/exp-critic/ablation_reverse_falsification_pattern.md — §4.6 E2_simple 정정에 적용

9. Self-Verification Checklist¶

판정 결론: v10 phase는 ADR-010의 가설을 모두 falsify하는 negative result로 종료한다. 다음 phase는 ADR-011 작성 후 VQ 노선을 폐기하고 on-device lightweight student 직접 추진 (P0) 으로 전환하기를 권고한다.