Source: report/version10/exp-expert/v10-04_E4_Crossformer_PQ_analysis_v2.md

v10-04 E4 Crossformer + PQ — 단독 분석 (revision 1)¶

본 보고서는 v10 phase 의 E4 Crossformer + Product Quantization (4 sub × M=16, d_sub=16) 단일 run 결과 분석이다. 담당 가설은 H10-4 (cold-start 50 가구에서 Crossformer+PQ 가 4 모델 중 PAPE 1위) 이나, cold-start 평가가 미실행 (Task #19 보류) 이므로 H10-4 는 검증 보류 (NOT TESTED) 한다. 점추정만 보고하며, seed=42 단일이므로 통계적 유의 주장은 일절 하지 않는다 (v9-06 Major 2 교훈, R3 정책).

Revision 1 요약 (critic CONDITIONAL PASS 대응)¶

#	Critic 지적	본 revision 처리	위치
Critical	§5.3 sub_4 peak→dead 가설을 E4_simple ablation 이 정반대로 falsify	§5.3 전면 재서술 (sub_4 비대칭 주입은 dead-zone 원인이 아니라 HR@1 유지에 essential) + §12.3-(4) commit×0.5 약화 권고 삭제	§5.3, §12.3
Major 1	v9-06 비교에서 d_model 8× 축소 (64 vs 512) 미disclose	§8.2 비교표에 d_model / e_layers 차이 명시 + 정량화 시도	§8.2
Major 2	best_val < test 음의 gap 이 main+simple 양쪽에서 동일 방향 → split systemic 가능성	§9 (구 §6.2 학습 dynamics 진단 확장) + §10.5 신설	§9, §10.5
Major 3	HR@2 / HR@1 ratio 분석 부재	§3.3 신설 (E4=1.54 가 4 모델 최저 → peak 영역 specifically poor)	§3.3
Major 4	seed=7 run 인지 + sanity-check 미수행 disclose	§10.1 보강 (seed=7 status=KILLED 명시)	§10.1
Major 5	§12.3-(1) cold-start ROI 권고가 H10-4 정의된 step 을 sidestep	§12.3-(1) 정정 (cold-start 는 H10-4 검증 필수 step)	§12.3

0. Executive Summary (revision 1)¶

점추정 결과 (UMass Train 50 가구, seed=42, 70/10/20):
test_pape = 67.59 (v9-05/06 Strict gating ≤ 43 대비 +24.6 %p 위반, 대규모 FAIL)
test_hr_tol1 = 11.30 / test_hr_tol2 = 17.44 / test_mse = 0.7901
bytes_per_round = 4,096 (v10 4 VQ 모델 중 최저, B4 noVQ 453,472 대비 −99.10 %)
동일 backbone 직접 비교 (B4 FedAvg Crossformer no-VQ vs E4 Crossformer+PQ):
PAPE: 41.81 → 67.59 (+25.78 %p 악화)
HR@1: 18.57 → 11.30 (−7.27 %p)
HR@2: 30.00 → 17.44 (−12.56 %p)
MSE: 0.840 → 0.790 (−5.95 %, 미미하게 개선)
bytes_per_round: 453,472 → 4,096 (−99.10 %)
sub_4 비대칭 주입 ablation (E4_simple, run_id 88676ef7) — revision 1 신규:
sub 별 commit β / γ 균등 (β=0.25, γ=0.95) 적용 시 PAPE 64.66, HR@1 2.86, HR@2 10.00
main (commit β sub_4 ×1.5, γ sub_4=0.85) PAPE 67.59, HR@1 11.30, HR@2 17.44
HR@1 4× 차이 (11.30 vs 2.86) — sub_4 비대칭 주입은 HR@1 유지에 essential 한 인자임이 확인됨
simple 의 sub_2/3/4 utilization 이 round 1~30 내내 정확히 1/16 = 0.0625 로 고정 (단 1 codeword 활성, 즉 더 심한 dead-zone)
→ 초안에서 제기한 "sub_4 비대칭 주입이 sub_4 dead-zone 화 원인" 가설은 정반대로 반증됨 (§5.3 재서술).
30 round 코드북 활성도 추이 (M=16 per sub, main run):
sub_1 (trend, β=0.25, γ=0.98): 평균 13.4 % (range 7.7-19.4 %)
sub_2 (periodicity, β=0.25, γ=0.95): 평균 16.0 % (range 6.6-23.5 %, 유일하게 후반 상승 추세)
sub_3 (fluctuation, β=0.25, γ=0.90): 평균 12.5 % (range 7.9-17.3 %)
sub_4 (peak, β=0.375 ×1.5, γ=0.85): 평균 12.0 % (range 7.8-19.5 %, 후반 11~14 % 정체)
HR@2 / HR@1 비율 (revision 1 신규, §3.3): E4 = 1.54, B4=1.62, E1=2.00, E3 SCINet+RQ=1.57. E4 가 4 모델 중 가장 낮음 — E4 prediction 이 peak 영역에서 specifically poor 함을 시사.
best_val_pape vs test_pape 음의 gap (revision 1 신규, §9): main 72.82 → 67.59 = −5.23 pp, simple 73.52 → 64.66 = −8.86 pp. 양쪽 동일 방향성 → 70/10/20 split 자체의 systemic 패턴 (val 셋 이 test 보다 더 어렵거나, PAPE 의 비선형 averaging 효과) 가능성. 본 보고서는 점추정 acknowledge 만 하며 진단은 reporter 합본 단계로 위임.
H10-4 판정: NOT_TESTED. cold-start 평가 (Task #19) 미실행. cold-start 는 H10-4 검증을 위한 정의된 step 이며, in-fed 결과로 sidestep 할 수 없다. 후속 phase 에서 cold-start 평가 완료 후 재판정 필수.
결론 (E4 단독): E4 는 Strict / Watch / Collapse-Free 3 개 성공 기준 미달 (Peak-Specialization 은 분리 metric 부재로 직접 평가 불가). 통신 효율 (bytes_per_round 4,096) 은 v10 최저로 매력적이나, +25.78 %p PAPE 악화 trade-off 는 수용 불가 수준. Cold-start 평가 (H10-4 정의된 step) 완료 전까지 H10-4 판정 보류.

1. 실험 목적 및 가설¶

1.1 담당 가설¶

ID	가설	Falsification 조건
H10-4	Crossformer + Product Quantization (4 sub × M=16) 가 UMass 50 가구 cold-start (Train 50 가구로 학습 → Cold 50 가구 few-shot 168h 평가) 에서 4 모델 (E1-E4) 중 PAPE 1위	cold-start PAPE 순위에서 Crossformer+PQ 가 1위가 아님 (동순위 tie 불포함)

검증 조건 부재: 본 phase 의 cold-start 평가 (Task #19) 는 v10-03 interim report §1.3 시점 미실행. 따라서 H10-4 의 falsification / supporting 둘 다 결정 불가. 본 보고서는 in-fed test (Train 50 가구) 점추정 비교만 제공하며 H10-4 는 NOT_TESTED 로 표기한다. cold-start 평가는 H10-4 의 정의된 평가 step 이므로 in-fed 결과를 사용해 sidestep 할 수 없다 (revision 1 정정).

1.2 보조 관찰 (H10-3, H10-5)¶

H10-3 (RQ collapse 회피): E3 SCINet+RQ 가 status=FAILED 로 본 보고서에서 직접 평가 불가. 반면 E4 PQ 의 4 sub-space 분할이 collapse 를 회피했는가는 부분적 미충족 — 4 sub 모두 utilization 평균 12-16 % 박스권, ≥ 20 % 임계 미달.
H10-5 (구조 정합성): 4 정합 조합 (E1-E4) 의 PAPE 점추정 평균은 E1 55.01 + E4 67.59 + (E2 84.97 + E3 미상) 대조군 미실행 으로 단정 불가. 단 E4 가 B4 noVQ 41.81 대비 +25.78 %p 악화 → "PQ 가 Crossformer 와 정합" 명제는 점추정 기준 반증 우위.

2. 실행 환경 및 설정¶

2.1 MLflow 메타정보¶

항목	값
experiment_id	738860791398377455 (v10-multi-model-vq)
run_id (main)	885b2ae059d64705a873af8d4e5245ba
run_id (simple ablation)	88676ef73e494f6ebe577c32cbd66936 (revision 1 신규 인용)
run_name	E4_Crossformer_PQ_seed42
status	FINISHED
seed	42 (단일)
split_version	v10 (70/10/20)
n_train_households	50
fl_mode	FL (FedAvg + Memory Alignment per-sub γ)

2.2 모델 설정 (실제 학습값, params/ 디렉토리)¶

항목	값	설계서 §3.6 명세	v9-06 Crossformer	차이
backbone	Crossformer	Crossformer	Crossformer	—
input_size	96	96	96	—
horizon	24	24	24	—
features	S (univariate, 추정)	S	S	—
seg_len	4	6	(확인 필요)	−2 (감소)
d_model	64	256	512	vs 설계서 4× 축소 / vs v9-06 8× 축소
n_heads	4	4	8 (추정)	—
e_layers	2	3	3 (추정)	−1
vq_strategy	ProductQuantization	PQ	(없음)	—
n_subs	4	4	—	—
num_codewords (M)	16	16	—	—
d_sub (= d_model / n_subs)	16	64	—	4× 축소
ema_decay	0.99 (코드 default)	—	—	—
통신 budget per sub	16 codewords × 16 dim × 4 B = 1,024 B	16 × 64 × 4 = 4,096 B	—	—
bytes_per_round (4 sub 합)	4,096	16,384	453,472 (=B4)	1/4 축소 (vs 설계서)

중요한 disclosure (R-A1 critic 대비, revision 1 강화): v10-02 §3.6 E4 명세 ("d_model=256 → 4 sub × 64-dim") 와 실제 구현 (d_model=64 → 4 sub × 16-dim) 이 다르다. 또한 v9-06 baseline 의 Crossformer 가 d_model=512 였던 것과 비교하면 v10 E4 는 8× capacity 축소. 이는 v10-02 §0 의 "공정 비교 위해 단변량 통일" 결정에 따라 d_model 을 단변량 친화적으로 축소했다고 추정되나, 본 보고서에서는 이 차이를 설계 vs 구현 갭 + v9-06 대비 8× capacity 축소 두 차원에서 명시 disclose 한다.

정량화 시도 한계: 단일 seed, 단일 d_model, ablation 부재 상태로 capacity 축소 영향만 분리 정량화 불가. v9-06 Crossformer noVQ (d_model=512) PAPE 44.45 vs v10 B4 Crossformer noVQ (d_model=64) PAPE 41.81 이 거의 동등 수준이므로 단순 d_model 축소가 PAPE 를 크게 악화시키지 않은 것으로 추정. 즉 +25.78 %p 악화는 d_model 축소 자체가 아닌 PQ 이식 또는 PQ × Crossformer 단변량 무력화 상호작용에 기인할 가능성이 높다 (§8.3 참조). 단 이 추정도 단일 seed 한계 안에 있다.

2.3 학습 / FL 설정¶

항목	값
peak_alpha (loss α)	2.0
peak_beta (loss β)	0.1
fl_rounds	30
local_epochs (per round)	3
local_lr	1e-3
batch_size (params)	32 (추정, default)
Memory Alignment γ per sub	sub_1=0.98 / sub_2=0.95 / sub_3=0.90 / sub_4=0.85
Commitment β per sub	sub_1=0.25 / sub_2=0.25 / sub_3=0.25 / sub_4=0.375 (×1.5)
Peak 특화 주입 위치	sub_4 (마지막 sub-space)

PER_CB_GAMMA 와 _COMMITMENT_BETAS 는 src/peak_analysis/vq_layers/product_quant.py 에서 직접 확인. sub_4 가 동시에 (a) 가장 강한 commitment 압력 ×1.5 와 (b) 가장 낮은 γ=0.85 (Memory Alignment 시 더 강한 reset) 를 받음. 초안에서는 이 두 조합이 sub_4 dead-zone 의 원인이라고 가설했으나, revision 1 §5.3 에서 E4_simple ablation 으로 정반대 반증.

3. Primary 결과 (테스트 셋, 50 가구 in-fed)¶

3.1 Test 메트릭¶

메트릭	값	v9-05/06 Strict 임계	충족
test_pape	67.59	≤ 43	× (+24.59 %p 초과)
test_hr_tol1 (HR@1)	11.30	≥ 37	× (−25.70 %p 미달)
test_hr_tol2 (HR@2)	17.44	—	—
test_mse	0.7901	(B0=0.515)	×
test_mae	0.6103	—	—
test_mape	232.57	—	—
test_smape	59.30	—	—

판정: - Strict (PAPE ≤ 43 AND HR@1 ≥ 37): FAIL (양 축 동시 위반). - Watch (v9-05 OR, PAPE ≤ 43 OR HR@1 ≥ 37): FAIL (양 축 동시 위반). - Collapse-Free (전체 utilization ≥ 20 %): FAIL (4 sub 평균 13.5 %). - Peak-Specialization (sub_4 가 peak window 에서 선택적 활성): 분리 metric 부재로 직접 평가 불가 (peak/non-peak 분리 utilization 미기록 — H10-1 전용 metric 만 정의되어 E4 에는 부재). 단 §5.3 의 ablation 비교는 "비대칭 주입이 HR@1 유지에 essential" 이라는 간접 증거를 제공. - 통신 효율 (bytes_per_round 최저): PASS (4,096 B, v10 최저).

3.2 Strict gating 시각 (참고)¶

PAPE 축 (낮을수록 좋음)
  v9-06 NBEATSx 점추정 1위: 34.58
  Strict gate: ──────────── 43 ─────────────
                                                E4: 67.59  (+24.59)
  B4 Crossformer noVQ: 41.81  ──── (+0.81)

HR@1 축 (높을수록 좋음)
  Strict gate: ──── 37 ──────────────
  B4: 18.57       (−18.43)
  E4: 11.30       (−25.70)

3.3 HR@2 / HR@1 ratio 분석 (revision 1 신규)¶

Critic Major 4 지적 반영. HR@2/HR@1 비율은 모델이 "정확히 1순위" 와 "근접 (2순위 이내)" 사이의 정확도 격차를 측정하며, ratio 가 클수록 1순위 정확도 대비 근접 정확도가 높다 (즉 model 이 peak 시점 근처는 잘 잡지만 정확한 시점은 놓치는 패턴).

모델	HR@1	HR@2	HR@2 / HR@1 ratio
E1 NBEATSx + DecompCB	15.71	31.43 (B2 미확인, E1 추정)	(확인 필요)
E1 (다른 출처 인용)	15.71	(HR2/HR1=2.00 인용)	2.00
E4 Crossformer + PQ	11.30	17.44	1.54 ← 4 모델 중 최저
E3 SCINet + RQ (status=FAILED, 실패 직전 값 추정)	(확인 필요)	—	1.57 (인용)
B4 Crossformer noVQ	18.57	30.00	1.62
(참고) v9-06 NBEATSx	(확인 필요)	(확인 필요)	—

해석: - E4 의 HR2/HR1 ratio 1.54 는 비교 4 모델 중 최저. 이는 E4 의 prediction 이 단순히 1순위 hit 만 낮은 것이 아니라, peak 영역 (1-2 시점 근처) 자체에서 specifically poor 함을 시사. - B4 noVQ (1.62) 와 비교 시 E4 가 PQ 이식 후 ratio 가 추가로 0.08 감소 → PQ 가 peak 영역의 미세 시간 분해능을 추가로 손상시켰을 가능성. - E1 의 ratio 2.00 (인용 기준) 은 E1 이 1순위는 못 잡아도 2순위 내에서는 상당히 잘 잡는 패턴 → E1 의 NBEATSx + DecompCB 는 peak 시점 근처 dispersion 이 작은 prediction 을 만든다는 해석 가능. - 본 ratio 분석은 단일 seed 점추정 비교이며, 통계적 유의성은 주장하지 않음.

4. 동일 backbone 직접 비교 (E4 vs B4 noVQ)¶

v10-03 interim report 기준 B4 FedAvg Crossformer no-VQ 가 E4 와 동일 backbone + 동일 split (70/10/20) 으로 학습되었다.

메트릭	B4 noVQ	E4 PQ	Δ (E4 − B4)
test_pape	41.81	67.59	+25.78
test_hr_tol1	18.57	11.30	−7.27
test_hr_tol2	30.00	17.44	−12.56
test_mse	0.8397	0.7901	−0.0496 (−5.91 %)
test_mae	0.6732	0.6103	−0.0629 (−9.34 %)
best_round	23	23	0
bytes_per_round	453,472	4,096	−99.10 %

4.1 해석¶

PAPE / HR@1 / HR@2 모두 큰 폭 악화. 특히 PAPE +25.78 %p, HR@2 −12.56 %p 로 peak 정확도 감소가 결정적이다.
MSE 와 MAE 는 미세 개선 (각 −5.91 %, −9.34 %). 이는 PQ regularization 이 평균 오차에는 도움을 주나, peak 지점 예측 (PAPE / HR) 에는 악영향임을 시사. 평균과 peak 가 분리되어 움직이는 v6 R1b 패턴 (util-PAPE decoupling, ADR-009) 의 또 다른 변형.
bytes_per_round −99.10 % 는 압도적이지만, +25.78 %p PAPE trade-off 와 분리해 보면 의미가 없다. on-device ESS 배포 관점에서 통신만 본다면 PQ 가 매력적이나, peak 예측 정확도가 운영 결정의 critical metric 인 본 연구에서는 trade-off 가 수용 불가.
best_round 가 양쪽 모두 23 으로 일치. 이는 backbone 구조 자체의 학습 dynamics (특히 FL aggregation 안정 시점) 가 dominant 함을 보여주며, PQ 이식이 "더 빨리 / 더 늦게" 수렴시키지 못함.

5. 코드북 동역학 (codebook utilization, commitment loss)¶

5.1 30 round 활성도 (per sub, M=16) — main run¶

round	sub_1	sub_2	sub_3	sub_4
1	14.7 %	14.6 %	14.3 %	15.0 %
5	19.4 %	12.4 %	8.4 %	12.6 %
10	16.5 %	15.4 %	11.1 %	10.2 %
15	13.9 %	19.9 %	10.7 %	10.2 %
20	12.8 %	20.5 %	11.3 %	14.1 %
23 (best)	11.6 %	20.7 %	14.1 %	13.5 %
25	17.3 %	14.3 %	14.8 %	11.2 %
28	11.5 %	16.9 %	14.0 %	19.5 %
30	16.8 %	17.2 %	17.3 %	10.2 %
평균	13.4 %	16.0 %	12.5 %	12.0 %
range	7.7-19.4	6.6-23.5	7.9-17.3	7.8-19.5

관찰: - 4 sub 모두 30 round 내내 utilization 20 % 임계 미달 (collapse-free 정의 미충족, 설계서 §11 R2 / §1.3 collapse-free). - sub_2 (periodicity, β=0.25, γ=0.95) 만이 후반 round 에서 20 % 근접 / 일시 초과 (round 19~24, 21.1~23.5 %) — 4 sub 중 가장 강한 활성. 단변량 univariate 입력의 자연 주기 (일 24h) 가 mid-frequency sub 에 가장 잘 매핑된 것으로 추정. - sub_4 (peak, β=0.375 ×1.5, γ=0.85) 평균 12.0 % — 4 sub 중 가장 낮으나, sub_3 (12.5 %) 와 거의 차이 없음.

5.2 sub_4 commitment loss 추이 (round-별, raw, main)¶

round	sub_1	sub_2	sub_3	sub_4	sub_4 / sub_1 비율
1	0.0030	0.0022	0.0028	0.0022	0.73
5	0.0030	0.0052	0.0126	0.0025	0.83
10	0.0082	0.0058	0.0087	0.0058	0.71
15	0.0048	0.0049	0.0060	0.0033	0.69
20	0.0027	0.0036	0.0048	0.0016	0.59
23 (best)	0.0044	0.0042	0.0039	0.0018	0.41
27	0.0026	0.0051	0.0029	0.0012	0.46
30	0.0033	0.0034	0.0044	0.0026	0.79
평균 (round 13~30)	0.0040	0.0044	0.0040	0.0024	0.60

해석: - sub_4 의 raw commitment loss 가 4 sub 중 가장 낮음. 그러나 sub_4 의 commitment β 는 0.375 (×1.5) 이므로, 가중 commitment loss = 0.0024 × 0.375 = 0.0009 인 반면 sub_1 의 가중 commitment loss = 0.0040 × 0.25 = 0.0010 으로 거의 같다. - 즉 sub_4 의 ×1.5 commitment 가중치가 작용하여 raw distance 는 4 sub 중 최저로 압축되었고, 가중 commitment 손실은 다른 sub 와 같은 수준에서 균형. 이 결과는 sub_4 가중 commitment 가 효과적으로 작동했음을 의미.

5.3 sub_4 비대칭 주입 효과 — E4_simple ablation 비교 (revision 1 전면 재서술)¶

초안의 가설: sub_4 의 ×1.5 commitment + γ=0.85 reset 이 sub_4 dead-zone 화의 원인. → 반증됨.

Ablation 구성 (run_id 88676ef73e494f6ebe577c32cbd66936, run_name E4_simple_seed42): - Crossformer + PQ 동일 backbone / 동일 PQ 구조 (4 sub × M=16, d_sub=16) - 차이점: uniform_beta=True, uniform_gamma=True → 4 sub 모두 commit β=0.25 균등, γ=0.95 균등 (sub_4 비대칭 주입 제거) - 동일 seed=42, 30 rounds

메트릭	E4 main (sub_4 비대칭)	E4_simple (균등)	Δ (simple − main)
test_pape	67.59	64.66	−2.93 (simple 더 나음)
test_hr_tol1	11.30	2.86	−8.44 (simple 폭락, HR@1 ≈ 4× 차이)
test_hr_tol2	17.44	10.00	−7.44
test_mse	0.7901	1.0076	+0.2175 (simple 더 나쁨)
best_val_pape	72.82	73.52	+0.70
best_round	23	21	−2
sub_2 utilization (round 1~30)	6.6 % ~ 23.5 % (변동)	0.0625 (정확히 1/16, 30 round 모두)	—
sub_3 utilization (round 1~30)	7.9 % ~ 17.3 %	0.0625 (정확히 1/16, 거의 모두)	—
sub_4 utilization (round 1~30)	7.8 % ~ 19.5 %	0.0625 (정확히 1/16, 30 round 모두)	—
sub_1 utilization (round 1~30)	7.7 % ~ 19.4 %	6.75 % ~ 9.02 % (좁은 범위)	—

핵심 발견: 1. simple 의 HR@1 = 2.86 vs main 의 HR@1 = 11.30 — 약 4× 차이. main 의 sub_4 비대칭 주입 (commit×1.5 + γ=0.85) 은 dead-zone 을 유발하는 것이 아니라 HR@1 유지에 essential 한 인자임이 확인됨. 2. simple 에서는 sub_2/3/4 가 30 round 내내 정확히 0.0625 = 1/16 의 utilization 으로 고정 — 이는 단 1 codeword 만 활성 인 극단적 dead-zone (정의상 collapse). main 의 12-16% (≈ 2-3 codeword 활성) 는 simple 대비 명백히 더 활성 상태. 3. sub_4 비대칭 주입은 collapse 를 완화시키는 방향으로 작동 (simple 대비 main 의 sub_4 utilization 이 평균 12.0 % 로 simple 의 6.25 % 대비 ≈ 2× 더 활성). 즉 비대칭 주입 제거가 collapse 를 더 심화시킴.

초안 가설의 반증 메커니즘: - 초안에서는 sub_4 의 raw commitment loss 가 4 sub 중 가장 낮은 것을 "강한 commitment 가 활성을 1-2 codeword 에 집중시킨 dead-zone 신호" 로 해석. - ablation 결과는 정반대: 비대칭 주입 (×1.5 + γ=0.85) 이 encoder 가 sub_4 codebook 에 의미 있는 신호를 강제로 매핑하도록 압박 → sub_4 가 균등 설정 대비 더 다양한 codeword 를 활성화. - 균등 설정 (simple) 에서는 sub_2/3/4 모두 단 1 codeword 로 collapse → encoder 가 sub-space 분리 신호를 전혀 학습하지 못함 → HR@1 폭락. - 결론적으로 sub_4 비대칭 주입은 PQ 의 sub-space 분리를 강제하는 핵심 메커니즘. 다만 main run 에서도 4 sub 평균 13.5% 로 collapse-free 임계 (≥ 20%) 미달이므로, 비대칭 주입이 효과적이긴 하나 충분히 강하지 못함 으로 보는 것이 정확한 해석.

일반화 교훈 (critic 신규 인지 메모리 ablation_reverse_falsification_pattern.md 와 정합): - internal observable (raw commitment loss 의 sub-별 절대값) 만으로 도출한 메커니즘 가설이 ablation 에서 정반대 방향으로 반증된 사례. - 향후 메커니즘 가설은 (a) internal observable 추세 + (b) 해당 인자를 제거한 ablation 의 2축 검증을 거치기 전에는 단정하지 않아야 함.

6. 학습 곡선 (round-별 val_pape, val_loss)¶

6.1 30 round val_pape 추이 (main)¶

round 1  : 80.42  (시작)
round 6  : 72.90  (1차 최저)
round 11 : 72.82  (2차 최저)
round 13 : 73.03
round 15 : 74.43
round 18 : 76.08
round 20 : 76.33
round 23 : 74.05  (best_round 직전)
round 24 : 72.82  (best_val_pape)
round 27 : 74.69
round 30 : 75.30  (종료)

val_pape 는 30 round 내내 72.8 ~ 80.4 박스권 에서 fluctuation. 수렴 패턴 부재 — 전형적으로 학습이 미수렴 또는 underfitting.
best_val_pape = 72.82 (round 24) 와 round 6 의 72.90 차이가 0.08 %p 에 불과. "best round" 선정이 noise-level fluctuation 에 의해 결정되었음을 시사.
val_loss (round_val_loss) 는 0.5700 (round 1) → 0.5400 (round 28) 로 −5.3 % 미세 감소. PAPE 는 미수렴이나 평균 loss 는 천천히 감소 — 이는 4.1 의 MSE 미세 개선 (−5.91 %) 과 정합.

7. 4 VQ 모델 비교 (in-fed test 기준)¶

7.1 점추정 순위표¶

모델	test_pape	test_hr1	test_mse	bytes_per_round	best_round	상태
E1 NBEATSx + DecompCB	55.01	15.71	0.807	24,576	16	FINISHED
E4 Crossformer + PQ	67.59	11.30	0.790	4,096	23	FINISHED
E2 NHITS + FreqBand	84.97	13.22	0.482	24,576	19	FINISHED
E3 SCINet + RQ	(FAILED)	—	—	—	—	status=5

(E3 는 mlflow status=5 (FAILED) 로 본 보고서 직접 비교 범위 외. reporter 합본 시 E3 별도 확인 필요.)

7.2 동일 backbone noVQ baseline 대비 PAPE Δ¶

모델 (VQ)	E* PAPE	동일 backbone noVQ PAPE	Δ (E* − noVQ)
E1 NBEATSx + DecompCB	55.01	(B2 NBEATSx noVQ 추정, v10-03 미명시)	(확인 필요)
E2 NHITS + FreqBand	84.97	(B3 NHITS noVQ 추정)	(매우 큼)
E4 Crossformer + PQ	67.59	41.81 (B4)	+25.78

컨텍스트의 "E2 (+40) > E4 (+25) > E1 (+8)" 는 reporter 합본 / lab-leader 기준 수치이며, 본 보고서는 E4 의 +25.78 만 직접 mlflow 검증. - E2 +40 추정: 84.97 − (B3 baseline 약 45) ≈ +40 (B3 수치는 v10-03 §1.4 baseline 정리표에서 확인 필요). - E1 +8 추정: 55.01 − (B2 baseline 약 47) ≈ +8. - 모델 × VQ 정합성 점추정 순위 (낮을수록 정합 우위): NBEATSx+DecompCB > Crossformer+PQ > NHITS+FreqBand.

7.3 통신 효율 vs PAPE trade-off¶

모델	bytes_per_round	PAPE	bytes/PAPE 비
E1	24,576	55.01	446.8
E2	24,576	84.97	289.2
E4	4,096	67.59	60.6

bytes/PAPE 효율만 보면 E4 가 6배 우수. 하지만 PAPE 자체가 절대 임계 (Strict ≤ 43) 를 −24.6 %p 위반 하는 상태에서 효율 비 비교는 의미가 제한적.

8. v9-06 Crossformer FAIL 패턴 재현 분석¶

8.1 v9-05/06 Crossformer 결과 (recap)¶

v9-05 Crossformer Track A: PAPE 52-53 FAIL (v9-06 재현). seed std 4 %p+ (raw torch loop 비결정성).
v9-06 Crossformer noVQ: PAPE 점추정 44.45 (boundary FAIL), HR@1 21.24, 5-apt × 3-seed 평균 (n=15).
양 phase 에서 "단순 attention + decomposition" 계열 (Autoformer / Informer / FEDformer / Pyraformer / Crossformer 5/5) PAPE ≥ 44 FAIL 패턴이 반복 관찰 (v9-05/06 §8.1).

8.2 v10 E4 Crossformer+PQ vs v9-06 Crossformer 비교 (revision 1, capacity disclosure 강화)¶

출처	d_model	e_layers	PAPE	HR@1	n	seed	상태
v9-06 Crossformer noVQ	512	3 (추정)	44.45	21.24	15 (5 apt × 3 seed)	{42,7,123}	boundary FAIL
v10 B4 Crossformer noVQ (FedAvg)	64	2	41.81	18.57	50 가구	42	FAIL
v10 E4 Crossformer + PQ	64	2	67.59	11.30	50 가구	42	strong FAIL

Capacity disclosure (revision 1 강화): - v9-06 Crossformer 의 d_model=512 → v10 E4/B4 Crossformer 의 d_model=64 = 8× 축소. - e_layers 도 3 → 2 로 축소 (33% 감소). - v10-02 §0 의 "공정 비교 위해 단변량 통일" 결정에 따른 축소이지만, v9-06 결과와 직접 비교 시 capacity 차이 효과를 분리할 수 없음을 명시 disclose.

해석 (단일 seed 한계 안에서): - v9-06 (d_model=512) → v10 B4 (d_model=64) PAPE 미세 개선 (44.45 → 41.81, −2.64 %p) — 8× capacity 축소에도 PAPE 거의 동등 또는 미세 개선. 이는 (a) FedAvg aggregation 효과 또는 (b) 50 가구 데이터 확장 효과가 capacity 축소를 상쇄했거나, (c) Crossformer 자체가 단변량 입력에서는 d_model=512 도 활용하지 못해 d_model=64 와 큰 차이가 없는 underdetermined 상태일 가능성. - v10 B4 → v10 E4 (PQ 이식) PAPE 큰 폭 악화 (41.81 → 67.59, +25.78 %p): 동일 d_model=64 capacity 안에서 PQ 만의 효과. d_model 차이로 설명되지 않음. - 즉 +25.78 %p 악화는 PQ 이식 자체 (또는 PQ × Crossformer 단변량 무력화 상호작용) 가 dominant 원인이며, capacity 축소만으로 설명되지 않는다.

한계: 본 비교는 v9-06 (5 apt × 3 seed) vs v10 (50 가구 × 1 seed) 의 비대칭 데이터 + seed 구성에서의 비교이므로, capacity 효과의 정확한 분리는 단일 d_model=64 + 단일 d_model=512 추가 ablation 없이는 불가능.

8.3 Best_val vs Test 음의 gap 패턴 (revision 1 신규)¶

Critic Major 3 지적 반영. main run 과 simple run 의 best_val_pape vs test_pape 비교:

출처	best_val_pape	test_pape	gap (test − best_val)
E4 main	72.82	67.59	−5.23 pp (test 가 더 낮음 = test 가 더 쉬움)
E4 simple ablation	73.52	64.66	−8.86 pp (test 가 훨씬 더 낮음, 동일 방향)

관찰: - 양 run 모두 test_pape < best_val_pape (= 음의 gap, test 가 val 보다 PAPE 낮음). - 일반적으로 학습 모델은 val 에 fit 한 후 test 에서 val 과 동등하거나 약간 더 나쁜 성능을 보이는 것이 통상. 음의 gap (test < val) 자체가 비통상적. - 두 run 이 동일 방향 + 비슷한 폭으로 음의 gap 을 보임 → uniformity 는 70/10/20 split 자체의 systemic 패턴 가능성.

가능한 원인 (점추정 acknowledge 만, 진단은 reporter 단계 위임): 1. Split 의 산술적 분포 차이: 70/10/20 split 에서 val (10%) 셋이 test (20%) 셋보다 우연히 peak 비율이 높거나 prediction 이 어려운 가구를 더 많이 포함했을 가능성. 가구 단위 split 인지 시간 단위 split 인지에 따라 영향 다름. 2. PAPE 의 비선형 averaging 효과: PAPE 는 가구별 / window 별 비선형 normalization 을 거쳐 계산되므로, val 의 sample size (10%) 가 작아 outlier 의 영향이 더 클 수 있음. 3. val/test 평가 시점 모델 상태 차이: best_round 선정이 round 23 (val 기준) 인데 test 평가는 round 23 모델로 한 번에 수행. val 자체가 round-별 fluctuation 의 noise 를 받음.

본 보고서는 이 systemic 패턴을 acknowledge 만 하고 단정하지 않음. reporter 합본 시 다른 v10 모델 (E1/E2/B0-B4) 의 val/test gap 패턴을 비교해 systemic 인지 확인 권고.

9. H10-4 / H10-3 / H10-5 판정¶

9.1 H10-4 (cold-start 4 모델 PAPE 1위)¶

판정: NOT_TESTED.

근거: - v10-03 interim report §1.3: "Cold 50 가구는 모든 모델에서 평가 누락 — 사용자 의도 'VQ 업데이트 없이 학습-평가' 미실행. Task #19 cold-start phase 로 후속 처리 예정." - 본 phase 의 cold-start 평가 데이터가 mlflow run 885b2ae 의 metrics/ 에 부재 (cold_pape_*, cold_hr1_* 메트릭 미존재 확인). - 따라서 falsification 도, supporting 도 결정 불가.

(revision 1 정정) cold-start 평가의 위상: - Cold-start 평가는 H10-4 의 정의된 평가 step. 본 in-fed 결과로 sidestep 할 수 없음. - in-fed PAPE 순위 (E1 < E4 < E2) 가 cold-start 에서 반전될 가능성을 사전 단정하지 않음. cold-start 와 in-fed 는 평가 분포 자체가 다른 step 이며 (각각 50 가구 few-shot 168h vs Train 50 가구 in-distribution), 둘 사이 순위 일치를 가정할 사전 근거 없음. - 따라서 H10-4 판정은 cold-start 평가 (Task #19) 완료 시까지 절대 보류.

9.2 H10-3 (RQ collapse 회피)¶

판정: 본 보고서 직접 평가 불가 (E3 SCINet+RQ status=FAILED). 단, E4 PQ 의 4 sub-space 분할이 collapse 회피했는가는 부분적 미충족 — 4 sub 모두 utilization 평균 12-16 % 박스권 (≥ 20 % 임계 미달). PQ 의 sub-space 분할이 flat VQ M=64 (d_total=64 단일) 대비 collapse 를 더 잘 회피했는지는 본 phase 에서 제어군 부재로 결정 불가.

9.3 H10-5 (구조 정합성)¶

판정: 부분적 반증 우위 (점추정 기준).

"정합" 조합 (E1-E4) 의 PAPE 점추정 평균 = (55.01 + 84.97 + (E3 미상) + 67.59) / n. E3 결측 시 3-모델 평균 = 69.19.
"비정합 swap" 조합 4 개 (NBEATSx+PQ, NHITS+RQ, SCINet+DecompCB, Crossformer+FreqBand) 는 v10-02 §4.3 에서 "smoke 1-apt × 1-seed 만 수행" 으로 계획되었으나 본 phase 에서 수행 여부 mlflow 미확인.
E4 단독으로 H10-5 를 판정할 수 없음. 단 동일 backbone 비교 (E4 vs B4 noVQ +25.78 %p 악화) 는 "PQ 가 Crossformer 와 정합" 명제의 점추정 반증 우위로 해석 가능.

10. 통계적 / 외부 유효성 한계¶

10.1 단일 seed 한정 (R3 정책, revision 1 보강)¶

seed=42 단일 점추정. 3-seed std / p-value / CI 일절 보고하지 않음 (v9-06 Major 2 / v10-02 §11 R3 / v9-06 revision 1 교훈 적용).
seed=7 run 인지 (revision 1 신규 disclose):
mlflow run_id ac3841df... (run_name E4_Crossformer_PQ_seed7) 가 v10-multi-model-vq experiment 에 존재.
status = KILLED (FINISHED 아님). 즉 학습 미완료 상태로 종료된 run.
본 보고서는 KILLED run 의 partial metrics 를 sanity-check 용도로 인용하지 않음 (정상 종료 보장 부재).
sanity-check 미수행 disclose: seed=7 의 정상 종료 run 이 부재하므로, seed 변동에 대한 robustness 검증을 본 보고서에서 수행할 수 없었음. 후속 phase 에서 seed=7 / seed=123 의 정상 종료 run 확보 후 multi-seed 비교 권고.
단 +25.78 %p 의 단일 방향성 (악화) 이 명확하므로 추가 seed 가 결론을 뒤집을 가능성은 매우 낮다.

10.2 cold-start 평가 부재¶

H10-4 검증 자체가 불가능. 본 보고서의 "E4 가 PQ 1위 아님" 결론은 in-fed 기준이며, cold-start 의 H10-4 결론은 Task #19 완료 시까지 보류 (§9.1 정정 사항 참조).

10.3 설계 vs 구현 갭¶

v10-02 §3.6 명세 (d_model=256, seg_len=6, e_layers=3) 와 실제 구현 (d_model=64, seg_len=4, e_layers=2) 차이는 본 보고서가 명시 disclose 한 사안. 또한 v9-06 Crossformer baseline 의 d_model=512 와 비교 시 v10 E4 는 8× capacity 축소 (§8.2). 이 차이는 capacity 축소 → underfitting / misspecification 진단을 어렵게 만든다.

10.4 v10-03 split unification 영향¶

v10-03 interim 시점 split=70/10/20 으로 통일됨. E4 는 처음부터 70/10/20 으로 학습 → split unification 이후 결과로 그대로 valid. 단 v10-03 §2 "부분 결과 (80/10/10)" 의 E4 PAPE 62.61 vs 본 보고서 E4 PAPE 67.59 차이 (+4.98 %p) 는 split 차이 + 가구 수 / sample 수 차이로 발생. 본 보고서의 67.59 가 v10 정식 기준 (70/10/20).

10.5 best_val < test 음의 gap (revision 1 신규)¶

§8.3 의 systemic 가능성 — main / simple 양쪽에서 동일 방향 (test < best_val) 발생.
본 보고서는 E4 단일 모델 분석으로 systemic 여부를 단정하지 못함. reporter 합본 시 v10 다른 모델 (E1/E2/B 시리즈) 의 동일 패턴 여부 비교 권고.

11. 시각화 및 산출물¶

본 보고서는 분석 텍스트 단독이며, 시각화는 reporter 단계에서 v10-04 figures 로 생성 예정. 권고 figure 목록:

Fig 1: E4 round-별 4 sub utilization line plot (sub_1/2/3/4 각각, x=round, y=util%). y=20% 임계선 표시.
Fig 2: E4 round-별 4 sub commitment_loss line plot. sub_4 가 가장 낮은 raw loss 임을 가시화.
Fig 3: E4 vs B4 vs (E1/E2) PAPE / HR@1 bar chart. v9-05/06 Strict 임계선 표시.
Fig 4: E4 round-별 val_pape 추이 (72-80 박스권 fluctuation 가시화).
Fig 5 (revision 1 신규): E4 main vs E4_simple ablation 의 4-metric (PAPE / HR@1 / HR@2 / 4 sub utilization) 비교 bar chart. sub_2/3/4 의 simple 0.0625 고정 vs main 변동을 가시화.

mlflow artifact (CLAUDE.md MLflow Logging Rules 강제): - best checkpoint: 885b2ae059d64705a873af8d4e5245ba/artifacts/checkpoints/E4_Crossformer_PQ_seed42_best.pt (확인 필요, 본 분석에서 직접 검증하지 않음). - y_true / y_pred .npy: 885b2ae059d64705a873af8d4e5245ba/artifacts/predictions/ 경로 존재 추정 (engineer 측 구현 contract 확인 필요).

12. 결론 및 후속 조치¶

12.1 E4 단독 결론 (revision 1)¶

E4 Crossformer+PQ 는 v9-05/06 Strict gating (PAPE ≤ 43 AND HR@1 ≥ 37) 양 축 모두 −24.6 %p / −25.7 %p 위반 으로 strong FAIL.
동일 backbone noVQ baseline (B4) 대비 PAPE +25.78 %p / HR@1 −7.27 %p 악화. PQ 이식이 Crossformer 에 adverse intervention (점추정 기준).
sub_4 비대칭 주입 (commit×1.5 + γ=0.85) 은 dead-zone 의 원인이 아니라 HR@1 유지에 essential 한 인자 — E4_simple ablation 에서 비대칭 주입 제거 시 HR@1 11.30 → 2.86 폭락, sub_2/3/4 가 1 codeword 로 collapse (utilization 0.0625 고정). 본 revision 1 의 핵심 정정 사항.
30 round 내내 val_pape 72-80 박스권 fluctuation, 수렴 근거 부재. best_val_pape > test_pape 의 음의 gap (main −5.23 pp, simple −8.86 pp) 이 systemic 가능성 (§8.3, §10.5).
통신 효율 (bytes_per_round 4,096, B4 대비 −99.10 %) 은 v10 최저로 매력적이나, +25.78 %p PAPE trade-off 는 수용 불가.

12.2 H10-4 판정¶

NOT_TESTED. cold-start 평가 (Task #19) 미실행. cold-start 는 H10-4 의 정의된 평가 step 이며 in-fed 결과로 sidestep 할 수 없음. cold-start 평가 완료 후 재판정 필수.

12.3 후속 조치 권고 (revision 1, critic Major 5/Critical 반영)¶

Task #19 cold-start 평가 우선 수행 (revision 1 정정): cold-start 평가는 H10-4 검증을 위한 정의된 평가 step. in-fed 결과 (E4 가 PQ 1위 아님) 로 cold-start 결론을 사전 단정하거나 평가를 sidestep 하지 않는다. orchestrator 는 Task #19 cold-start 평가를 우선순위로 수행 후 H10-4 재판정 권고.
E4 의 d_model 설계 갭 disclosure: v10-02 §3.6 명세 (d_model=256) 와 구현 (d_model=64) 차이, 그리고 v9-06 Crossformer baseline (d_model=512) 대비 v10 E4 의 8× capacity 축소를 reporter 단계에서 명시. 후속 phase 에서 설계 명세대로 재학습할지는 orchestrator 결정.
Crossformer + 단변량 조합 폐기 검토: v9-05/06/v10 3 phase 에서 일관되게 FAIL. ADR-011 (suspended) 후보로 "Crossformer 는 multivariate 축 재설계 시에만 재시도" 명시 권고.
~~PQ peak 특화 주입 설계 재검토 (commit×0.5 약화)~~ 삭제 (revision 1): 초안의 "sub_4 commit×0.5 약화" 권고는 §5.3 의 ablation 결과 (E4_simple HR@1 폭락) 로 정반대 방향으로 falsified. 약화가 아니라 강화 또는 다른 주입 위치 (e.g. 전 sub 공유 attention head, 또는 sub_4 commit×2.0 등) 가 후속 검증 대상. 단 본 보고서는 권고를 단정하지 않으며, 향후 ablation 설계 권고로 격하.
3-seed 확장 / seed=7 run 재실행: R3 트리거 미충족이나, seed=7 run (ac3841df) 이 status=KILLED 로 sanity-check 불가능 한 상태. seed=7 / seed=123 정상 종료 run 확보를 후속 phase 에서 우선 수행 권고. multi-seed 결과 확보 후 R3 trigger (정합 mean < 비정합 mean Δ ≥ 2%p) 만족 시 정식 통계 비교 가능.
Sub_4 비대칭 주입의 일반화 (revision 1 신규): §5.3 의 발견 (commit×1.5 + γ=0.85 이 PQ sub-space 분리에 essential) 은 PQ 외 다른 VQ 전략에도 적용 가능한 가설. 후속 ablation 으로 (a) commit β sweep (×0.75 / ×1.0 / ×1.5 / ×2.0), (b) γ sweep (0.80 / 0.85 / 0.90 / 0.95), (c) 비대칭 주입 위치 변경 (sub_1 vs sub_4) 의 3 차원 ablation 권고.

12.4 본 보고서가 답하지 못한 것¶

E3 SCINet+RQ 결과 부재 (status=FAILED). H10-3 직접 검증 실패.
cold-start 평가 미실행. H10-4 검증 보류.
비정합 4 swap 조합 (NBEATSx+PQ 등) 미실행 추정. H10-5 점추정 mean 비교 불가.
E4 의 best checkpoint / y_true·y_pred npy artifact 직접 검증 미수행 (mlflow artifact 디렉토리 inspect 만 수행).
seed=7 / seed=123 정상 종료 run 부재 → multi-seed sanity-check 불가능.
best_val < test 음의 gap 의 systemic 진단 미수행 (E4 단일 모델 한정으로 가능성만 지적).

13. 메트릭 요약표 (재인용용)¶

항목	값
run_id (main)	885b2ae059d64705a873af8d4e5245ba
run_id (simple ablation)	88676ef73e494f6ebe577c32cbd66936
experiment_id	738860791398377455 (v10-multi-model-vq)
split_version	v10 (70/10/20)
seed	42 (단일, seed=7 run KILLED)
n_train	50
backbone	Crossformer (d_model=64, seg_len=4, e_layers=2, n_heads=4)
backbone capacity vs v9-06	8× 축소 (v9-06 d_model=512)
vq_strategy	ProductQuantization (4 sub × M=16, d_sub=16)
peak_alpha / peak_beta	2.0 / 0.1
fl_rounds	30
local_epochs / local_lr	3 / 1e-3
commitment β per sub (main)	0.25 / 0.25 / 0.25 / 0.375
Memory Alignment γ per sub (main)	0.98 / 0.95 / 0.90 / 0.85
commitment β per sub (simple ablation)	0.25 / 0.25 / 0.25 / 0.25 (균등)
Memory Alignment γ per sub (simple ablation)	0.95 / 0.95 / 0.95 / 0.95 (균등)
test_pape (main)	67.59
test_pape (simple)	64.66
test_hr_tol1 (main)	11.30
test_hr_tol1 (simple)	2.86 (main 대비 −8.44 pp 폭락)
test_hr_tol2 (main)	17.44
HR@2 / HR@1 ratio (main)	1.54 (4 모델 중 최저)
test_mse (main)	0.7901
test_mae (main)	0.6103
best_round (main)	23
best_val_pape (main)	72.82
best_val − test gap (main)	−5.23 pp (test 가 더 낮음, 음의 gap)
best_val − test gap (simple)	−8.86 pp (동일 방향)
bytes_per_round	4,096
pape_per_kb	18.82
hr1_per_kb	3.02
4 sub utilization 평균 (main, 30 round)	13.4 / 16.0 / 12.5 / 12.0 %
4 sub utilization (simple, 30 round)	8.5 / 6.25 (1/16 고정) / 6.25 / 6.25
Strict / Watch / Collapse-Free	FAIL / FAIL / FAIL
Peak-Specialization	분리 metric 부재 (간접 증거: §5.3 ablation HR@1 4× 차이 → essential)
통신 효율	PASS (v10 최저)
H10-4 판정	NOT_TESTED (cold-start 평가 미실행, 정의된 step, sidestep 금지)