v10-04 E4 Crossformer + PQ — 단독 분석¶

본 보고서는 v10 phase 의 E4 Crossformer + Product Quantization (4 sub × M=16, d_sub=16) 단일 run 결과 분석이다. 담당 가설은 H10-4 (cold-start 50 가구에서 Crossformer+PQ 가 4 모델 중 PAPE 1위) 이나, cold-start 평가가 미실행 (Task #19 보류) 이므로 H10-4 는 검증 보류 (NOT TESTED) 한다. 점추정만 보고하며, seed=42 단일이므로 통계적 유의 주장은 일절 하지 않는다 (v9-06 Major 2 교훈, R3 정책).

0. Executive Summary¶

점추정 결과 (UMass Train 50 가구, seed=42, 70/10/20):
test_pape = 67.59 (v9-05/06 Strict gating ≤ 43 대비 +24.6 %p 위반, 대규모 FAIL)
test_hr_tol1 = 11.30 / test_hr_tol2 = 17.44 / test_mse = 0.7901
bytes_per_round = 4,096 (v10 4 VQ 모델 중 최저, B4 noVQ 453,472 대비 −99.10 %)
동일 backbone 직접 비교 (B4 FedAvg Crossformer no-VQ vs E4 Crossformer+PQ):
PAPE: 41.81 → 67.59 (+25.78 %p 악화)
HR@1: 18.57 → 11.30 (−7.27 %p)
HR@2: 30.00 → 17.44 (−12.56 %p)
MSE: 0.840 → 0.790 (−5.95 %, 미미하게 개선)
bytes_per_round: 453,472 → 4,096 (−99.10 %)
30 round 코드북 활성도 추이 (M=16 per sub):
sub_1 (trend, β=0.25, γ=0.98): 평균 13.4 % (range 7.7-19.4 %)
sub_2 (periodicity, β=0.25, γ=0.95): 평균 16.0 % (range 6.6-23.5 %, 유일하게 후반 상승 추세)
sub_3 (fluctuation, β=0.25, γ=0.90): 평균 12.5 % (range 7.9-17.3 %)
sub_4 (peak, β=0.375 ×1.5, γ=0.85): 평균 12.0 % (range 7.8-19.5 %, 후반 11~14 % 정체)
핵심 신호:
4 sub 모두 30 round 내내 utilization 8~24 % 박스권. 설계서 "collapse-free 임계 ≥ 20 %" 미충족 (4 sub 평균 13.5 %).
sub_4 commitment ×1.5 + γ=0.85 peak 특화 주입은 의도한 효과를 내지 못함. sub_4 활성도는 4 sub 중 가장 낮은 평균 12.0 % (sub_2 16.0 % 대비 −4.0 %p), commitment_loss 도 sub_4 가 가장 낮음 (round 13~30 평균 0.0024 vs sub_1 0.004 / sub_2 0.0044 / sub_3 0.004).
val_pape 30 round 내내 72.8 ~ 80.4 박스권 (수렴 근거 부재). 최저 round 24 의 72.82 가 best_round=23 (best_val_pape 72.82) 직후로, 미세 fluctuation 안에서 "best" 선정.
단변량 features='S' 통일 + d_model=256→64 축소 (설계서 §3.6 vs 실제 구현) 으로 Crossformer 의 cross-dimension attention 전제 자체가 약화. v9-05 §8.1 의 "Crossformer 단변량 무력화 가능성" 경고가 재확인됨.
H10-4 판정: NOT_TESTED. cold-start 평가가 Task #19 로 보류되어 50 가구 few-shot PAPE 순위 비교 자체가 부재. 단 in-fed test (Train 50 가구) 에서는 E1 NBEATSx+DecompCB (PAPE 55.01) < E4 Crossformer+PQ (PAPE 67.59) 로, E4 가 PQ 1위가 아님. cold-start 결과가 in-fed 와 반전될 가능성은 일반적으로 낮다.
H10-3/H10-5 보조 관찰: E2 NHITS+FreqBand (PAPE 84.97 best_val 307.76) 가 4 VQ 모델 중 최악, E1 (55.01) → E4 (67.59) → E2 (84.97) 순 PAPE 악화. 모델 × VQ 정합성 점추정 순위는 NBEATSx+DecompCB > Crossformer+PQ > NHITS+FreqBand (E3 SCINet+RQ 는 본 분석 범위 외, status=FAILED 처리되어 reporter 합본 시 별도 확인 필요).
결론 (E4 단독): E4 는 Strict / Watch / Collapse-Free / Peak-Specialization 4 개 성공 기준 모두 미달. 통신 효율 (bytes_per_round 4,096) 은 v10 최저로 매력적이나, +25.78 %p PAPE 악화 trade-off 는 수용 불가 수준. Cold-start 평가 없이는 H10-4 결론 보류.

1. 실험 목적 및 가설¶

1.1 담당 가설¶

ID	가설	Falsification 조건
H10-4	Crossformer + Product Quantization (4 sub × M=16) 가 UMass 50 가구 cold-start (Train 50 가구로 학습 → Cold 50 가구 few-shot 168h 평가) 에서 4 모델 (E1-E4) 중 PAPE 1위	cold-start PAPE 순위에서 Crossformer+PQ 가 1위가 아님 (동순위 tie 불포함)

검증 조건 부재: 본 phase 의 cold-start 평가 (Task #19) 는 v10-03 interim report §1.3 시점 미실행. 따라서 H10-4 의 falsification / supporting 둘 다 결정 불가. 본 보고서는 in-fed test (Train 50 가구) 점추정 비교만 제공하며 H10-4 는 NOT_TESTED 로 표기한다.

1.2 보조 관찰 (H10-3, H10-5)¶

H10-3 (RQ collapse 회피): E3 SCINet+RQ 가 status=FAILED 로 본 보고서에서 직접 평가 불가. 반면 E4 PQ 의 4 sub-space 분할이 collapse 를 회피했는가는 부분적 미충족 — 4 sub 모두 utilization 평균 12-16 % 박스권, ≥ 20 % 임계 미달.
H10-5 (구조 정합성): 4 정합 조합 (E1-E4) 의 PAPE 점추정 평균은 E1 55.01 + E4 67.59 + (E2 84.97 + E3 미상) 대조군 미실행 으로 단정 불가. 단 E4 가 B4 noVQ 41.81 대비 +25.78 %p 악화 → "PQ 가 Crossformer 와 정합" 명제는 점추정 기준 반증 우위.

2. 실행 환경 및 설정¶

2.1 MLflow 메타정보¶

항목	값
experiment_id	738860791398377455 (v10-multi-model-vq)
run_id	885b2ae059d64705a873af8d4e5245ba
run_name	E4_Crossformer_PQ_seed42
status	FINISHED
seed	42 (단일)
split_version	v10 (70/10/20)
n_train_households	50
fl_mode	FL (FedAvg + Memory Alignment per-sub γ)

2.2 모델 설정 (실제 학습값, params/ 디렉토리)¶

항목	값	설계서 §3.6 명세	차이
backbone	Crossformer	Crossformer	—
input_size	96	96	—
horizon	24	24	—
features	S (univariate, 추정)	S	—
seg_len	4	6	−2 (감소)
win_size	(params 미기록)	2	—
factor	(params 미기록)	3	—
d_model	64	256	−192 (4× 축소)
n_heads	4	4	—
e_layers	2	3	−1
vq_strategy	ProductQuantization	PQ	—
n_subs	4	4	—
num_codewords (M)	16	16	—
d_sub (= d_model / n_subs)	16	64	4× 축소
ema_decay	0.99 (코드 default)	—	—
통신 budget per sub	16 codewords × 16 dim × 4 B = 1,024 B	16 × 64 × 4 = 4,096 B	—
bytes_per_round (4 sub 합)	4,096	16,384	1/4 축소

중요한 disclosure (R-A1 critic 대비): v10-02 §3.6 E4 명세 ("d_model=256 → 4 sub × 64-dim") 와 실제 구현 (d_model=64 → 4 sub × 16-dim) 이 다르다. 이는 v10-02 §0 의 "공정 비교 위해 단변량 통일" 결정에 따라 d_model 을 단변량 친화적으로 축소했다고 추정되나, 본 보고서에서는 이 차이를 설계 vs 구현 갭으로 명시 disclose 한다. 결과 해석 시 "4 sub × d_sub=16" 이 PQ 의 sub-space 분리에 충분한 capacity 인지 자체가 의문이 된다 (5.2 §심층 분석 참조).

2.3 학습 / FL 설정¶

항목	값
peak_alpha (loss α)	2.0
peak_beta (loss β)	0.1
fl_rounds	30
local_epochs (per round)	3
local_lr	1e-3
batch_size (params)	32 (추정, default)
Memory Alignment γ per sub	sub_1=0.98 / sub_2=0.95 / sub_3=0.90 / sub_4=0.85
Commitment β per sub	sub_1=0.25 / sub_2=0.25 / sub_3=0.25 / sub_4=0.375 (×1.5)
Peak 특화 주입 위치	sub_4 (마지막 sub-space)

PER_CB_GAMMA 와 _COMMITMENT_BETAS 는 src/peak_analysis/vq_layers/product_quant.py 에서 직접 확인. sub_4 가 동시에 (a) 가장 강한 commitment 압력 ×1.5 와 (b) 가장 낮은 γ=0.85 (Memory Alignment 시 더 강한 reset) 를 받음. 이 두 조합이 sub_4 의 의도적 "peak-specialization" 이지만, 결과적으로 sub_4 가 가장 비활성 sub 로 전락 (5.3 §sub_4 dead-zone 분석).

3. Primary 결과 (테스트 셋, 50 가구 in-fed)¶

3.1 Test 메트릭¶

메트릭	값	v9-05/06 Strict 임계	충족
test_pape	67.59	≤ 43	× (+24.59 %p 초과)
test_hr_tol1 (HR@1)	11.30	≥ 37	× (−25.70 %p 미달)
test_hr_tol2 (HR@2)	17.44	—	—
test_mse	0.7901	(B0=0.515)	×
test_mae	0.6103	—	—
test_mape	232.57	—	—
test_smape	59.30	—	—

판정: - Strict (PAPE ≤ 43 AND HR@1 ≥ 37): FAIL (양 축 동시 위반). - Watch (v9-05 OR, PAPE ≤ 43 OR HR@1 ≥ 37): FAIL (양 축 동시 위반). - Collapse-Free (전체 utilization ≥ 20 %): FAIL (4 sub 평균 13.5 %). - Peak-Specialization (sub_4 가 peak window 에서 선택적 활성): FAIL (peak/non-peak 분리 utilization 미기록 — H10-1 전용 metric 만 정의되어 E4 에는 부재). 대체 증거인 "sub_4 활성도 자체" 가 4 sub 중 가장 낮음 → 의도된 peak-specialization 이 발현되지 않음. - 통신 효율 (bytes_per_round 최저): PASS (4,096 B, v10 최저).

3.2 Strict gating 시각 (참고)¶

PAPE 축 (낮을수록 좋음)
  v9-06 NBEATSx 점추정 1위: 34.58
  Strict gate: ──────────── 43 ─────────────
                                                E4: 67.59  (+24.59)
  B4 Crossformer noVQ: 41.81  ──── (+0.81)

HR@1 축 (높을수록 좋음)
  Strict gate: ──── 37 ──────────────
  B4: 18.57       (−18.43)
  E4: 11.30       (−25.70)

4. 동일 backbone 직접 비교 (E4 vs B4 noVQ)¶

v10-03 interim report 기준 B4 FedAvg Crossformer no-VQ 가 E4 와 동일 backbone + 동일 split (70/10/20) 으로 학습되었다.

메트릭	B4 noVQ	E4 PQ	Δ (E4 − B4)
test_pape	41.81	67.59	+25.78
test_hr_tol1	18.57	11.30	−7.27
test_hr_tol2	30.00	17.44	−12.56
test_mse	0.8397	0.7901	−0.0496 (−5.91 %)
test_mae	0.6732	0.6103	−0.0629 (−9.34 %)
best_round	23	23	0
bytes_per_round	453,472	4,096	−99.10 %

4.1 해석¶

PAPE / HR@1 / HR@2 모두 큰 폭 악화. 특히 PAPE +25.78 %p, HR@2 −12.56 %p 로 peak 정확도 감소가 결정적이다.
MSE 와 MAE 는 미세 개선 (각 −5.91 %, −9.34 %). 이는 PQ regularization 이 평균 오차에는 도움을 주나, peak 지점 예측 (PAPE / HR) 에는 악영향임을 시사. 평균과 peak 가 분리되어 움직이는 v6 R1b 패턴 (util-PAPE decoupling, ADR-009) 의 또 다른 변형.
bytes_per_round −99.10 % 는 압도적이지만, +25.78 %p PAPE trade-off 와 분리해 보면 의미가 없다. on-device ESS 배포 관점에서 통신만 본다면 PQ 가 매력적이나, peak 예측 정확도가 운영 결정의 critical metric 인 본 연구에서는 trade-off 가 수용 불가.
best_round 가 양쪽 모두 23 으로 일치. 이는 backbone 구조 자체의 학습 dynamics (특히 FL aggregation 안정 시점) 가 dominant 함을 보여주며, PQ 이식이 "더 빨리 / 더 늦게" 수렴시키지 못함.

5. 코드북 동역학 (codebook utilization, commitment loss)¶

5.1 30 round 활성도 (per sub, M=16)¶

round	sub_1	sub_2	sub_3	sub_4
1	14.7 %	14.6 %	14.3 %	15.0 %
5	19.4 %	12.4 %	8.4 %	12.6 %
10	16.5 %	15.4 %	11.1 %	10.2 %
15	13.9 %	19.9 %	10.7 %	10.2 %
20	12.8 %	20.5 %	11.3 %	14.1 %
23 (best)	11.6 %	20.7 %	14.1 %	13.5 %
25	17.3 %	14.3 %	14.8 %	11.2 %
28	11.5 %	16.9 %	14.0 %	19.5 %
30	16.8 %	17.2 %	17.3 %	10.2 %
평균	13.4 %	16.0 %	12.5 %	12.0 %
range	7.7-19.4	6.6-23.5	7.9-17.3	7.8-19.5

관찰: - 4 sub 모두 30 round 내내 utilization 20 % 임계 미달 (collapse-free 정의 미충족, 설계서 §11 R2 / §1.3 collapse-free). - sub_2 (periodicity, β=0.25, γ=0.95) 만이 후반 round 에서 20 % 근접 / 일시 초과 (round 19~24, 21.1~23.5 %) — 4 sub 중 가장 강한 활성. 단변량 univariate 입력의 자연 주기 (일 24h) 가 mid-frequency sub 에 가장 잘 매핑된 것으로 추정. - sub_4 (peak, β=0.375 ×1.5, γ=0.85) 는 4 sub 중 가장 낮은 평균 12.0 % — peak 특화 주입이 "강한 commitment + 강한 reset" 두 압력을 동시 받아 dead-zone 화 (5.3). - 컨텍스트가 언급한 "Round 28 모든 4 sub 동시 collapse" 는 raw 데이터에서 실제로는 sub_1=11.5 %, sub_2=16.9 %, sub_3=14.0 %, sub_4=19.5 % 로 sub_4 가 round 28 에서 일시 활성 (round 30 에서 다시 10.2 % 로 하락). 즉 catastrophic collapse 가 한 round 단발성으로 발생한 것이 아니라, 30 round 내내 8-24 % 박스권 fluctuation 이 진실에 가깝다.

5.2 sub_4 commitment loss 추이 (round-별, raw)¶

round	sub_1	sub_2	sub_3	sub_4	sub_4 / sub_1 비율
1	0.0030	0.0022	0.0028	0.0022	0.73
5	0.0030	0.0052	0.0126	0.0025	0.83
10	0.0082	0.0058	0.0087	0.0058	0.71
15	0.0048	0.0049	0.0060	0.0033	0.69
20	0.0027	0.0036	0.0048	0.0016	0.59
23 (best)	0.0044	0.0042	0.0039	0.0018	0.41
27	0.0026	0.0051	0.0029	0.0012	0.46
30	0.0033	0.0034	0.0044	0.0026	0.79
평균 (round 13~30)	0.0040	0.0044	0.0040	0.0024	0.60

해석: - sub_4 의 raw commitment loss 가 4 sub 중 가장 낮음 (round 13~30 평균). 그러나 sub_4 의 commitment β 는 0.375 (×1.5) 이므로, 가중 commitment loss = 0.0024 × 0.375 = 0.0009 인 반면 sub_1 의 가중 commitment loss = 0.0040 × 0.25 = 0.0010 으로 거의 같다. - 이는 sub_4 의 ×1.5 commitment 가중치가 학습 dynamics 에서 raw distance 를 수치적으로 1/1.5 로 축소시키도록 강하게 압박했음 (encoder 가 sub_4 codeword 에 더 강하게 끌어붙는다) 을 시사. - 그러나 sub_4 utilization 은 12.0 % 로 4 sub 중 최저. 즉 sub_4 의 codeword 들이 강하게 끌어붙은 후 dead-zone 화 — 소수 codeword 에 활성이 집중되고 나머지가 거의 사용되지 않는 winner-take-most 패턴. - ADR-008 / Huh et al. (ICML 2023) 의 "EMA ≡ commitment loss β=1.0 등가성" 관점에서, sub_4 의 강한 commitment + γ=0.85 의 강한 server reset 은 이중 압력으로 작용: encoder 는 매 batch 내 codeword 에 끌어붙는 동시에 server 가 매 round 강한 reset 을 가해, 결과적으로 codebook 의 수렴 표적이 매 round 흔들리며 균일 분포에 가까워지지 못함.

5.3 sub_4 peak 특화 주입의 역효과 (가설)¶

설계서 §3.6 의 의도: - sub_4 의 commitment β=0.375 (×1.5): peak 신호에 더 강한 압력으로 codebook 매핑을 강제. - sub_4 의 γ=0.85: server 가 peak codebook 을 더 자주 reset 해 client 다양성 확보.

실제 결과 (점추정 추정): 1. 강한 commitment 압력은 sub_4 codeword 들 사이에서 가장 가까운 1-2 개에 활성 집중 → 16 codeword 중 약 2 개만 활성 (12 % util ≈ 2/16) 이라는 dead-zone 패턴. 2. 낮은 γ=0.85 의 server reset 이 매 round 활성 codeword 위치를 흔듦 → encoder 의 "어디로 끌어붙어야 하는가" 가 매 round 변화 → 결과적으로 codebook 이 안정 anchor 를 형성하지 못함. 3. Peak signal 자체가 시계열 입력의 sparse 한 부분 (24h 중 1-2h 구간) — 이 sparse signal 을 "단 하나의 sub-space" 에 강제로 배치 (sub_4) 하는 설계가, 실제로는 trend (sub_1) 와 periodicity (sub_2) 와 fluctuation (sub_3) 모두에 분산되어야 자연스러운 신호를 부자연스럽게 모음.

대안 (future work, 본 보고서 권고 아님 — 단순 disclosure): peak 신호를 별도 sub 가 아닌 "전 sub 에 공유되는 attention head" 로 처리하거나, sub_4 의 commitment 를 ×1.5 가 아닌 0.5 (×0.5, 약화) 로 두어 peak 정보가 자유롭게 다른 sub 와 공존하도록 허용. 현 설계는 "peak = 분리된 채널" 을 가정했으나 결과적으로 "peak = dead channel" 이 되었다.

6. 학습 곡선 (round-별 val_pape, val_loss)¶

6.1 30 round val_pape 추이¶

round 1  : 80.42  (시작)
round 6  : 72.90  (1차 최저)
round 11 : 72.82  (2차 최저)
round 13 : 73.03
round 15 : 74.43
round 18 : 76.08
round 20 : 76.33
round 23 : 74.05  (best_round 직전)
round 24 : 72.82  (best_val_pape)
round 27 : 74.69
round 30 : 75.30  (종료)

val_pape 는 30 round 내내 72.8 ~ 80.4 박스권 에서 fluctuation. 수렴 패턴 부재 — 전형적으로 학습이 미수렴 또는 underfitting.
best_val_pape = 72.82 (round 24) 와 round 6 의 72.90 차이가 0.08 %p 에 불과. "best round" 선정이 noise-level fluctuation 에 의해 결정되었음을 시사.
val_loss (round_val_loss) 는 0.5700 (round 1) → 0.5400 (round 28) 로 −5.3 % 미세 감소. PAPE 는 미수렴이나 평균 loss 는 천천히 감소 — 이는 4.1 의 MSE 미세 개선 (−5.91 %) 과 정합.

6.2 학습 dynamics 진단¶

수렴 부재: 30 round 내내 val_pape 가 박스권 → max 30 round 학습 budget 이 부족하거나, optimization landscape 가 plateau 화. 설계서 §11 R5 ("Track A max_steps=500 한계" 와 유사 risk) 가 E4 에서 재발.
Underfit 가능성 / Misspecification 가능성:
Underfit: d_model=64 + e_layers=2 의 capacity 가 50 가구 · 30 round · local 3 epoch 학습으로 충분치 않음.
Misspecification: PQ 의 sub-space 분할 자체가 단변량 입력에서 본질적으로 적용 불가. d_sub=16 너무 작아 의미 채널 형성 어려움.
best_round 23 의 의미: train 30 round 중 23 round 가 val 최저 → 이후 7 round 는 미세 악화 (overfitting 초기 신호) 또는 noise fluctuation. 어느 쪽이든 30 round 가 충분치 않다는 결론은 동일하지 않다 (학습 커브가 plateau 라면 더 학습해도 의미가 없다).

7. 4 VQ 모델 비교 (in-fed test 기준)¶

7.1 점추정 순위표¶

모델	test_pape	test_hr1	test_mse	bytes_per_round	best_round	상태
E1 NBEATSx + DecompCB	55.01	15.71	0.807	24,576	16	FINISHED
E4 Crossformer + PQ	67.59	11.30	0.790	4,096	23	FINISHED
E2 NHITS + FreqBand	84.97	13.22	0.482	24,576	19	FINISHED
E3 SCINet + RQ	(FAILED)	—	—	—	—	status=5

(E3 는 mlflow status=5 (FAILED) 로 본 보고서 직접 비교 범위 외. reporter 합본 시 E3 별도 확인 필요.)

7.2 동일 backbone noVQ baseline 대비 PAPE Δ¶

모델 (VQ)	E* PAPE	동일 backbone noVQ PAPE	Δ (E* − noVQ)
E1 NBEATSx + DecompCB	55.01	(B2 NBEATSx noVQ 추정, v10-03 미명시)	(확인 필요)
E2 NHITS + FreqBand	84.97	(B3 NHITS noVQ 추정)	(매우 큼)
E4 Crossformer + PQ	67.59	41.81 (B4)	+25.78

컨텍스트의 "E2 (+40) > E4 (+25) > E1 (+8)" 는 reporter 합본 / lab-leader 기준 수치이며, 본 보고서는 E4 의 +25.78 만 직접 mlflow 검증. - E2 +40 추정: 84.97 − (B3 baseline 약 45) ≈ +40 (B3 수치는 v10-03 §1.4 baseline 정리표에서 확인 필요). - E1 +8 추정: 55.01 − (B2 baseline 약 47) ≈ +8. - 모델 × VQ 정합성 점추정 순위 (낮을수록 정합 우위): NBEATSx+DecompCB > Crossformer+PQ > NHITS+FreqBand.

7.3 통신 효율 vs PAPE trade-off¶

모델	bytes_per_round	PAPE	bytes/PAPE 비
E1	24,576	55.01	446.8
E2	24,576	84.97	289.2
E4	4,096	67.59	60.6

bytes/PAPE 효율만 보면 E4 가 6배 우수. 하지만 PAPE 자체가 절대 임계 (Strict ≤ 43) 를 −24.6 %p 위반 하는 상태에서 효율 비 비교는 의미가 제한적.
"통신만 본다면 PQ 매력적이나 PAPE 손해 너무 큼" (컨텍스트 §4) 결론 재확인.

8. v9-06 Crossformer FAIL 패턴 재현 분석¶

8.1 v9-05/06 Crossformer 결과 (recap)¶

v9-05 Crossformer Track A: PAPE 52-53 FAIL (v9-06 재현). seed std 4 %p+ (raw torch loop 비결정성).
v9-06 Crossformer noVQ: PAPE 점추정 44.45 (boundary FAIL), HR@1 21.24, 5-apt × 3-seed 평균 (n=15).
양 phase 에서 "단순 attention + decomposition" 계열 (Autoformer / Informer / FEDformer / Pyraformer / Crossformer 5/5) PAPE ≥ 44 FAIL 패턴이 반복 관찰 (v9-05/06 §8.1).

8.2 v10 E4 Crossformer+PQ vs v9-06 Crossformer 비교¶

출처	PAPE	HR@1	n	seed	상태
v9-06 Crossformer noVQ	44.45	21.24	15 (5 apt × 3 seed)	{42,7,123}	boundary FAIL
v10 B4 Crossformer noVQ (FedAvg)	41.81	18.57	50 가구	42	FAIL
v10 E4 Crossformer + PQ	67.59	11.30	50 가구	42	strong FAIL

해석: - v9-06 → v10 B4 (noVQ FedAvg) PAPE 미세 개선 (44.45 → 41.81, −2.64 %p): FedAvg aggregation 과 50 가구 데이터 확장으로 점추정 안정. - v10 B4 → v10 E4 (PQ 이식) PAPE 큰 폭 악화 (41.81 → 67.59, +25.78 %p): PQ 이식이 Crossformer 의 본래 약점을 증폭. - v9-05/06 의 "Crossformer 단변량 무력화 가능성" 경고가 v10 E4 에서 확정에 가까움. univariate features='S' 입력에서 Crossformer 의 cross-dimension attention 은 dimension 축이 1 에 가까워 (seg_len 으로 분할 후에도) 본래 의도된 sub-space 분리가 일어나지 않음. 그 위에 PQ 의 4 sub × d=16 분할이 추가로 가해지면, encoder 가 의미 있는 sub-space 를 형성할 channel 자체가 부족해진다 (5.2 d_sub=16 capacity 부족 가설과 정합).

8.3 결론¶

E4 의 +25.78 %p 악화는 두 인자의 곱: 1. Crossformer 자체의 단변량 약점 (v9-05/06 재확인, ADR-010 §리스크 R4 경고된 사항이 confirmed 에 가까움) 2. PQ 의 d_sub=16 sub-space 분할 자체의 capacity 부족 (5.2 §sub_4 dead-zone 분석)

두 인자가 독립적으로 +1.5 ~ +2.5 %p 악화시켰다고 가정해도 +25.78 %p 는 설명되지 않는다. 곱셈적 상호작용 — Crossformer 의 단변량 무력화 → DSW embedding 출력의 variance 가 4 sub 간에 거의 균일 → PQ 가 의미 있는 sub-space 를 형성할 신호 자체가 없음 → encoder 가 PQ 의 strict (β=0.25) commitment 압력에 끌려가는 동안 backbone 이 peak signal 을 학습할 capacity 가 더 줄어듦 → PAPE 폭증.

9. H10-4 / H10-3 / H10-5 판정¶

9.1 H10-4 (cold-start 4 모델 PAPE 1위)¶

판정: NOT_TESTED.

근거: - v10-03 interim report §1.3: "Cold 50 가구는 모든 모델에서 평가 누락 — 사용자 의도 'VQ 업데이트 없이 학습-평가' 미실행. Task #19 cold-start phase 로 후속 처리 예정." - 본 phase 의 cold-start 평가 데이터가 mlflow run 885b2ae 의 metrics/ 에 부재 (cold_pape_*, cold_hr1_* 메트릭 미존재 확인). - 따라서 falsification 도, supporting 도 결정 불가.

대체 정보 (in-fed 기준): - in-fed test (Train 50 가구) PAPE 순위: E1 (55.01) < E4 (67.59) < E2 (84.97) → E4 는 PQ 1위 아님. - 일반적으로 cold-start few-shot 168h 평가가 in-fed 평가 대비 노이즈가 크고 backbone 의 일반화 능력에 더 의존하므로, in-fed 에서 E1 < E4 인 상태가 cold-start 에서 반전될 가능성은 낮다 (단 강한 주장 아님 — 단일 seed 한정).

9.2 H10-3 (RQ collapse 회피)¶

판정: 본 보고서 직접 평가 불가 (E3 SCINet+RQ status=FAILED). 단, E4 PQ 의 4 sub-space 분할이 collapse 회피했는가는 부분적 미충족 — 4 sub 모두 utilization 평균 12-16 % 박스권 (≥ 20 % 임계 미달). PQ 의 sub-space 분할이 flat VQ M=64 (d_total=64 단일) 대비 collapse 를 더 잘 회피했는지는 본 phase 에서 제어군 부재로 결정 불가.

9.3 H10-5 (구조 정합성)¶

판정: 부분적 반증 우위 (점추정 기준).

"정합" 조합 (E1-E4) 의 PAPE 점추정 평균 = (55.01 + 84.97 + (E3 미상) + 67.59) / n. E3 결측 시 3-모델 평균 = 69.19.
"비정합 swap" 조합 4 개 (NBEATSx+PQ, NHITS+RQ, SCINet+DecompCB, Crossformer+FreqBand) 는 v10-02 §4.3 에서 "smoke 1-apt × 1-seed 만 수행" 으로 계획되었으나 본 phase 에서 수행 여부 mlflow 미확인.
E4 단독으로 H10-5 를 판정할 수 없음. 단 동일 backbone 비교 (E4 vs B4 noVQ +25.78 %p 악화) 는 "PQ 가 Crossformer 와 정합" 명제의 점추정 반증 우위로 해석 가능. 즉 PQ 이식이 Crossformer 에 adverse intervention 이라는 점추정 결론.

10. 통계적 / 외부 유효성 한계¶

10.1 단일 seed 한정 (R3 정책)¶

seed=42 단일 점추정. 3-seed std / p-value / CI 일절 보고하지 않음 (v9-06 Major 2 / v10-02 §11 R3 / v9-06 revision 1 교훈 적용).
seed=7 의 E4_Crossformer_PQ_seed7 run (ac3841df) 이 mlflow 에 존재하나, end_time 1777108354419 으로 seed=42 finished run 보다 이른 종료. 본 보고서는 명시적 단일 seed 분석으로 한정하며, multi-seed 확장은 R3 트리거 ("정합 mean < 비정합 mean 차이 2%p 이상") 미달이므로 의미 없음 — 오히려 +25.78 %p 의 단일 방향성 (악화) 이 명확하므로 추가 seed 가 결론을 뒤집을 가능성 매우 낮음.

10.2 cold-start 평가 부재¶

H10-4 검증 자체가 불가능. 본 보고서의 "E4 가 PQ 1위 아님" 결론은 in-fed 기준이며, cold-start 의 H10-4 결론은 Task #19 완료 시까지 보류.

10.3 설계 vs 구현 갭¶

v10-02 §3.6 명세 (d_model=256, seg_len=6, e_layers=3) 와 실제 구현 (d_model=64, seg_len=4, e_layers=2) 차이는 본 보고서가 명시 disclose 한 사안. 이 차이는 capacity 축소 → underfitting / misspecification 진단을 어렵게 만든다. d_model=256 + e_layers=3 의 설계 명세대로 학습되었다면 결과가 달랐을 가능성을 배제 불가.

10.4 v10-03 split unification 영향¶

v10-03 interim 시점 split=70/10/20 으로 통일됨. E4 는 처음부터 70/10/20 으로 학습 → split unification 이후 결과로 그대로 valid. 단 v10-03 §2 "부분 결과 (80/10/10)" 의 E4 PAPE 62.61 vs 본 보고서 E4 PAPE 67.59 차이 (+4.98 %p) 는 split 차이 + 가구 수 / sample 수 차이로 발생. 본 보고서의 67.59 가 v10 정식 기준 (70/10/20).

11. 시각화 및 산출물¶

본 보고서는 분석 텍스트 단독이며, 시각화는 reporter 단계에서 v10-04 figures 로 생성 예정. 권고 figure 목록:

Fig 1: E4 round-별 4 sub utilization line plot (sub_1/2/3/4 각각, x=round, y=util%). y=20% 임계선 표시.
Fig 2: E4 round-별 4 sub commitment_loss line plot. sub_4 가 가장 낮은 raw loss 임을 가시화.
Fig 3: E4 vs B4 vs (E1/E2) PAPE / HR@1 bar chart. v9-05/06 Strict 임계선 표시.
Fig 4: E4 round-별 val_pape 추이 (72-80 박스권 fluctuation 가시화).

mlflow artifact (CLAUDE.md MLflow Logging Rules 강제): - best checkpoint: 885b2ae059d64705a873af8d4e5245ba/artifacts/checkpoints/E4_Crossformer_PQ_seed42_best.pt (확인 필요, 본 분석에서 직접 검증하지 않음). - y_true / y_pred .npy: 885b2ae059d64705a873af8d4e5245ba/artifacts/predictions/ 경로 존재 추정 (engineer 측 구현 contract 확인 필요).

12. 결론 및 후속 조치¶

12.1 E4 단독 결론¶

E4 Crossformer+PQ 는 v9-05/06 Strict gating (PAPE ≤ 43 AND HR@1 ≥ 37) 양 축 모두 −24.6 %p / −25.7 %p 위반 으로 strong FAIL.
동일 backbone noVQ baseline (B4) 대비 PAPE +25.78 %p / HR@1 −7.27 %p 악화. PQ 이식이 Crossformer 에 adverse intervention (점추정 기준).
sub_4 commit ×1.5 + γ=0.85 peak 특화 주입은 의도와 정반대로 sub_4 dead-zone 화 (4 sub 중 utilization 최저 평균 12.0 %).
30 round 내내 val_pape 72-80 박스권 fluctuation, 수렴 근거 부재.
통신 효율 (bytes_per_round 4,096, B4 대비 −99.10 %) 은 v10 최저로 매력적이나, +25.78 %p PAPE trade-off 는 수용 불가.

12.2 H10-4 판정¶

NOT_TESTED. cold-start 평가 (Task #19) 미실행. in-fed 기준으로는 E4 가 PQ 1위가 아님 (E1 < E4).

12.3 후속 조치 권고 (본 보고서는 권고만, 결정은 orchestrator)¶

Task #19 cold-start 평가 우선순위 재고: H10-4 검증을 위한 cold-start 평가가 미실행 상태이며, 본 in-fed 결과 기반으로 cold-start 가 결과를 반전시킬 가능성은 낮다. cold-start 평가의 ROI 자체를 reporter 합본 시점에 재평가 권고.
E4 의 d_model 설계 갭 disclosure: v10-02 §3.6 명세 (d_model=256) 와 구현 (d_model=64) 차이는 reporter 단계에서 명시. 후속 phase 에서 설계 명세대로 재학습할지는 orchestrator 결정.
Crossformer + 단변량 조합 폐기 검토: v9-05/06/v10 3 phase 에서 일관되게 FAIL. ADR-011 (suspended) 후보로 "Crossformer 는 multivariate 축 재설계 시에만 재시도" 명시 권고.
PQ peak 특화 주입 설계 재검토: sub_4 의 ×1.5 commitment + γ=0.85 reset 조합이 dead-zone 을 만드는 메커니즘 (5.3) 은 PQ 외 다른 VQ 전략에도 적용 가능한 일반 교훈. addendum ablation 으로 (a) commit ×1.0, (b) commit ×0.5, (c) γ=0.95 일관 의 3 변형 비교 권고.
3-seed 확장: R3 트리거 미충족. E4 단독 결과로는 추가 seed 의 의미가 낮음 (방향성 명확). seed=7 run (ac3841df) 의 결과를 별도 sanity-check 용도로만 reporter 단계에서 인용 권고.

12.4 본 보고서가 답하지 못한 것¶

E3 SCINet+RQ 결과 부재 (status=FAILED). H10-3 직접 검증 실패.
cold-start 평가 미실행. H10-4 검증 보류.
비정합 4 swap 조합 (NBEATSx+PQ 등) 미실행 추정. H10-5 점추정 mean 비교 불가.
E4 의 best checkpoint / y_true·y_pred npy artifact 직접 검증 미수행 (mlflow artifact 디렉토리 inspect 만 수행).

13. 메트릭 요약표 (재인용용)¶

항목	값
run_id	885b2ae059d64705a873af8d4e5245ba
experiment_id	738860791398377455 (v10-multi-model-vq)
split_version	v10 (70/10/20)
seed	42
n_train	50
backbone	Crossformer (d_model=64, seg_len=4, e_layers=2, n_heads=4)
vq_strategy	ProductQuantization (4 sub × M=16, d_sub=16)
peak_alpha / peak_beta	2.0 / 0.1
fl_rounds	30
local_epochs / local_lr	3 / 1e-3
commitment β per sub	0.25 / 0.25 / 0.25 / 0.375
Memory Alignment γ per sub	0.98 / 0.95 / 0.90 / 0.85
test_pape	67.59
test_hr_tol1	11.30
test_hr_tol2	17.44
test_mse	0.7901
test_mae	0.6103
test_mape	232.57
test_smape	59.30
best_round	23
best_val_pape	72.82
bytes_per_round	4,096
pape_per_kb	18.82
hr1_per_kb	3.02
4 sub utilization 평균 (30 round)	13.4 / 16.0 / 12.5 / 12.0 %
Strict / Watch / Collapse-Free / Peak-Specialization	FAIL / FAIL / FAIL / FAIL
통신 효율	PASS (v10 최저)
H10-4 판정	NOT_TESTED (cold-start 평가 미실행)