v10-04 E4 Crossformer + PQ — 단독 분석¶
본 보고서는 v10 phase 의 E4 Crossformer + Product Quantization (4 sub × M=16, d_sub=16) 단일 run 결과 분석이다. 담당 가설은 H10-4 (cold-start 50 가구에서 Crossformer+PQ 가 4 모델 중 PAPE 1위) 이나, cold-start 평가가 미실행 (Task #19 보류) 이므로 H10-4 는 검증 보류 (NOT TESTED) 한다. 점추정만 보고하며, seed=42 단일이므로 통계적 유의 주장은 일절 하지 않는다 (v9-06 Major 2 교훈, R3 정책).
0. Executive Summary¶
- 점추정 결과 (UMass Train 50 가구, seed=42, 70/10/20):
- test_pape = 67.59 (v9-05/06 Strict gating ≤ 43 대비 +24.6 %p 위반, 대규모 FAIL)
- test_hr_tol1 = 11.30 / test_hr_tol2 = 17.44 / test_mse = 0.7901
- bytes_per_round = 4,096 (v10 4 VQ 모델 중 최저, B4 noVQ 453,472 대비 −99.10 %)
- 동일 backbone 직접 비교 (B4 FedAvg Crossformer no-VQ vs E4 Crossformer+PQ):
- PAPE: 41.81 → 67.59 (+25.78 %p 악화)
- HR@1: 18.57 → 11.30 (−7.27 %p)
- HR@2: 30.00 → 17.44 (−12.56 %p)
- MSE: 0.840 → 0.790 (−5.95 %, 미미하게 개선)
- bytes_per_round: 453,472 → 4,096 (−99.10 %)
- 30 round 코드북 활성도 추이 (M=16 per sub):
- sub_1 (trend, β=0.25, γ=0.98): 평균 13.4 % (range 7.7-19.4 %)
- sub_2 (periodicity, β=0.25, γ=0.95): 평균 16.0 % (range 6.6-23.5 %, 유일하게 후반 상승 추세)
- sub_3 (fluctuation, β=0.25, γ=0.90): 평균 12.5 % (range 7.9-17.3 %)
- sub_4 (peak, β=0.375 ×1.5, γ=0.85): 평균 12.0 % (range 7.8-19.5 %, 후반 11~14 % 정체)
- 핵심 신호:
- 4 sub 모두 30 round 내내 utilization 8~24 % 박스권. 설계서 "collapse-free 임계 ≥ 20 %" 미충족 (4 sub 평균 13.5 %).
- sub_4 commitment ×1.5 + γ=0.85 peak 특화 주입은 의도한 효과를 내지 못함. sub_4 활성도는 4 sub 중 가장 낮은 평균 12.0 % (sub_2 16.0 % 대비 −4.0 %p), commitment_loss 도 sub_4 가 가장 낮음 (round 13~30 평균 0.0024 vs sub_1 0.004 / sub_2 0.0044 / sub_3 0.004).
- val_pape 30 round 내내 72.8 ~ 80.4 박스권 (수렴 근거 부재). 최저 round 24 의 72.82 가 best_round=23 (best_val_pape 72.82) 직후로, 미세 fluctuation 안에서 "best" 선정.
- 단변량 features='S' 통일 + d_model=256→64 축소 (설계서 §3.6 vs 실제 구현) 으로 Crossformer 의 cross-dimension attention 전제 자체가 약화. v9-05 §8.1 의 "Crossformer 단변량 무력화 가능성" 경고가 재확인됨.
- H10-4 판정: NOT_TESTED. cold-start 평가가 Task #19 로 보류되어 50 가구 few-shot PAPE 순위 비교 자체가 부재. 단 in-fed test (Train 50 가구) 에서는 E1 NBEATSx+DecompCB (PAPE 55.01) < E4 Crossformer+PQ (PAPE 67.59) 로, E4 가 PQ 1위가 아님. cold-start 결과가 in-fed 와 반전될 가능성은 일반적으로 낮다.
- H10-3/H10-5 보조 관찰: E2 NHITS+FreqBand (PAPE 84.97 best_val 307.76) 가 4 VQ 모델 중 최악, E1 (55.01) → E4 (67.59) → E2 (84.97) 순 PAPE 악화. 모델 × VQ 정합성 점추정 순위는 NBEATSx+DecompCB > Crossformer+PQ > NHITS+FreqBand (E3 SCINet+RQ 는 본 분석 범위 외, status=FAILED 처리되어 reporter 합본 시 별도 확인 필요).
- 결론 (E4 단독): E4 는 Strict / Watch / Collapse-Free / Peak-Specialization 4 개 성공 기준 모두 미달. 통신 효율 (bytes_per_round 4,096) 은 v10 최저로 매력적이나, +25.78 %p PAPE 악화 trade-off 는 수용 불가 수준. Cold-start 평가 없이는 H10-4 결론 보류.
1. 실험 목적 및 가설¶
1.1 담당 가설¶
| ID | 가설 | Falsification 조건 |
|---|---|---|
| H10-4 | Crossformer + Product Quantization (4 sub × M=16) 가 UMass 50 가구 cold-start (Train 50 가구로 학습 → Cold 50 가구 few-shot 168h 평가) 에서 4 모델 (E1-E4) 중 PAPE 1위 | cold-start PAPE 순위에서 Crossformer+PQ 가 1위가 아님 (동순위 tie 불포함) |
검증 조건 부재: 본 phase 의 cold-start 평가 (Task #19) 는 v10-03 interim report §1.3 시점 미실행. 따라서 H10-4 의 falsification / supporting 둘 다 결정 불가. 본 보고서는 in-fed test (Train 50 가구) 점추정 비교만 제공하며 H10-4 는 NOT_TESTED 로 표기한다.
1.2 보조 관찰 (H10-3, H10-5)¶
- H10-3 (RQ collapse 회피): E3 SCINet+RQ 가 status=FAILED 로 본 보고서에서 직접 평가 불가. 반면 E4 PQ 의 4 sub-space 분할이 collapse 를 회피했는가는 부분적 미충족 — 4 sub 모두 utilization 평균 12-16 % 박스권, ≥ 20 % 임계 미달.
- H10-5 (구조 정합성): 4 정합 조합 (E1-E4) 의 PAPE 점추정 평균은 E1 55.01 + E4 67.59 + (E2 84.97 + E3 미상) 대조군 미실행 으로 단정 불가. 단 E4 가 B4 noVQ 41.81 대비 +25.78 %p 악화 → "PQ 가 Crossformer 와 정합" 명제는 점추정 기준 반증 우위.
2. 실행 환경 및 설정¶
2.1 MLflow 메타정보¶
| 항목 | 값 |
|---|---|
| experiment_id | 738860791398377455 (v10-multi-model-vq) |
| run_id | 885b2ae059d64705a873af8d4e5245ba |
| run_name | E4_Crossformer_PQ_seed42 |
| status | FINISHED |
| seed | 42 (단일) |
| split_version | v10 (70/10/20) |
| n_train_households | 50 |
| fl_mode | FL (FedAvg + Memory Alignment per-sub γ) |
2.2 모델 설정 (실제 학습값, params/ 디렉토리)¶
| 항목 | 값 | 설계서 §3.6 명세 | 차이 |
|---|---|---|---|
| backbone | Crossformer | Crossformer | — |
| input_size | 96 | 96 | — |
| horizon | 24 | 24 | — |
| features | S (univariate, 추정) | S | — |
| seg_len | 4 | 6 | −2 (감소) |
| win_size | (params 미기록) | 2 | — |
| factor | (params 미기록) | 3 | — |
| d_model | 64 | 256 | −192 (4× 축소) |
| n_heads | 4 | 4 | — |
| e_layers | 2 | 3 | −1 |
| vq_strategy | ProductQuantization | PQ | — |
| n_subs | 4 | 4 | — |
| num_codewords (M) | 16 | 16 | — |
| d_sub (= d_model / n_subs) | 16 | 64 | 4× 축소 |
| ema_decay | 0.99 (코드 default) | — | — |
| 통신 budget per sub | 16 codewords × 16 dim × 4 B = 1,024 B | 16 × 64 × 4 = 4,096 B | — |
| bytes_per_round (4 sub 합) | 4,096 | 16,384 | 1/4 축소 |
중요한 disclosure (R-A1 critic 대비): v10-02 §3.6 E4 명세 ("d_model=256 → 4 sub × 64-dim") 와 실제 구현 (d_model=64 → 4 sub × 16-dim) 이 다르다. 이는 v10-02 §0 의 "공정 비교 위해 단변량 통일" 결정에 따라 d_model 을 단변량 친화적으로 축소했다고 추정되나, 본 보고서에서는 이 차이를 설계 vs 구현 갭으로 명시 disclose 한다. 결과 해석 시 "4 sub × d_sub=16" 이 PQ 의 sub-space 분리에 충분한 capacity 인지 자체가 의문이 된다 (5.2 §심층 분석 참조).
2.3 학습 / FL 설정¶
| 항목 | 값 |
|---|---|
| peak_alpha (loss α) | 2.0 |
| peak_beta (loss β) | 0.1 |
| fl_rounds | 30 |
| local_epochs (per round) | 3 |
| local_lr | 1e-3 |
| batch_size (params) | 32 (추정, default) |
| Memory Alignment γ per sub | sub_1=0.98 / sub_2=0.95 / sub_3=0.90 / sub_4=0.85 |
| Commitment β per sub | sub_1=0.25 / sub_2=0.25 / sub_3=0.25 / sub_4=0.375 (×1.5) |
| Peak 특화 주입 위치 | sub_4 (마지막 sub-space) |
PER_CB_GAMMA 와 _COMMITMENT_BETAS 는 src/peak_analysis/vq_layers/product_quant.py 에서 직접 확인. sub_4 가 동시에 (a) 가장 강한 commitment 압력 ×1.5 와 (b) 가장 낮은 γ=0.85 (Memory Alignment 시 더 강한 reset) 를 받음. 이 두 조합이 sub_4 의 의도적 "peak-specialization" 이지만, 결과적으로 sub_4 가 가장 비활성 sub 로 전락 (5.3 §sub_4 dead-zone 분석).
3. Primary 결과 (테스트 셋, 50 가구 in-fed)¶
3.1 Test 메트릭¶
| 메트릭 | 값 | v9-05/06 Strict 임계 | 충족 |
|---|---|---|---|
| test_pape | 67.59 | ≤ 43 | × (+24.59 %p 초과) |
| test_hr_tol1 (HR@1) | 11.30 | ≥ 37 | × (−25.70 %p 미달) |
| test_hr_tol2 (HR@2) | 17.44 | — | — |
| test_mse | 0.7901 | (B0=0.515) | × |
| test_mae | 0.6103 | — | — |
| test_mape | 232.57 | — | — |
| test_smape | 59.30 | — | — |
판정: - Strict (PAPE ≤ 43 AND HR@1 ≥ 37): FAIL (양 축 동시 위반). - Watch (v9-05 OR, PAPE ≤ 43 OR HR@1 ≥ 37): FAIL (양 축 동시 위반). - Collapse-Free (전체 utilization ≥ 20 %): FAIL (4 sub 평균 13.5 %). - Peak-Specialization (sub_4 가 peak window 에서 선택적 활성): FAIL (peak/non-peak 분리 utilization 미기록 — H10-1 전용 metric 만 정의되어 E4 에는 부재). 대체 증거인 "sub_4 활성도 자체" 가 4 sub 중 가장 낮음 → 의도된 peak-specialization 이 발현되지 않음. - 통신 효율 (bytes_per_round 최저): PASS (4,096 B, v10 최저).
3.2 Strict gating 시각 (참고)¶
PAPE 축 (낮을수록 좋음)
v9-06 NBEATSx 점추정 1위: 34.58
Strict gate: ──────────── 43 ─────────────
E4: 67.59 (+24.59)
B4 Crossformer noVQ: 41.81 ──── (+0.81)
HR@1 축 (높을수록 좋음)
Strict gate: ──── 37 ──────────────
B4: 18.57 (−18.43)
E4: 11.30 (−25.70)
4. 동일 backbone 직접 비교 (E4 vs B4 noVQ)¶
v10-03 interim report 기준 B4 FedAvg Crossformer no-VQ 가 E4 와 동일 backbone + 동일 split (70/10/20) 으로 학습되었다.
| 메트릭 | B4 noVQ | E4 PQ | Δ (E4 − B4) |
|---|---|---|---|
| test_pape | 41.81 | 67.59 | +25.78 |
| test_hr_tol1 | 18.57 | 11.30 | −7.27 |
| test_hr_tol2 | 30.00 | 17.44 | −12.56 |
| test_mse | 0.8397 | 0.7901 | −0.0496 (−5.91 %) |
| test_mae | 0.6732 | 0.6103 | −0.0629 (−9.34 %) |
| best_round | 23 | 23 | 0 |
| bytes_per_round | 453,472 | 4,096 | −99.10 % |
4.1 해석¶
- PAPE / HR@1 / HR@2 모두 큰 폭 악화. 특히 PAPE +25.78 %p, HR@2 −12.56 %p 로 peak 정확도 감소가 결정적이다.
- MSE 와 MAE 는 미세 개선 (각 −5.91 %, −9.34 %). 이는 PQ regularization 이 평균 오차에는 도움을 주나, peak 지점 예측 (PAPE / HR) 에는 악영향임을 시사. 평균과 peak 가 분리되어 움직이는 v6 R1b 패턴 (util-PAPE decoupling, ADR-009) 의 또 다른 변형.
- bytes_per_round −99.10 % 는 압도적이지만, +25.78 %p PAPE trade-off 와 분리해 보면 의미가 없다. on-device ESS 배포 관점에서 통신만 본다면 PQ 가 매력적이나, peak 예측 정확도가 운영 결정의 critical metric 인 본 연구에서는 trade-off 가 수용 불가.
- best_round 가 양쪽 모두 23 으로 일치. 이는 backbone 구조 자체의 학습 dynamics (특히 FL aggregation 안정 시점) 가 dominant 함을 보여주며, PQ 이식이 "더 빨리 / 더 늦게" 수렴시키지 못함.
5. 코드북 동역학 (codebook utilization, commitment loss)¶
5.1 30 round 활성도 (per sub, M=16)¶
| round | sub_1 | sub_2 | sub_3 | sub_4 |
|---|---|---|---|---|
| 1 | 14.7 % | 14.6 % | 14.3 % | 15.0 % |
| 5 | 19.4 % | 12.4 % | 8.4 % | 12.6 % |
| 10 | 16.5 % | 15.4 % | 11.1 % | 10.2 % |
| 15 | 13.9 % | 19.9 % | 10.7 % | 10.2 % |
| 20 | 12.8 % | 20.5 % | 11.3 % | 14.1 % |
| 23 (best) | 11.6 % | 20.7 % | 14.1 % | 13.5 % |
| 25 | 17.3 % | 14.3 % | 14.8 % | 11.2 % |
| 28 | 11.5 % | 16.9 % | 14.0 % | 19.5 % |
| 30 | 16.8 % | 17.2 % | 17.3 % | 10.2 % |
| 평균 | 13.4 % | 16.0 % | 12.5 % | 12.0 % |
| range | 7.7-19.4 | 6.6-23.5 | 7.9-17.3 | 7.8-19.5 |
관찰: - 4 sub 모두 30 round 내내 utilization 20 % 임계 미달 (collapse-free 정의 미충족, 설계서 §11 R2 / §1.3 collapse-free). - sub_2 (periodicity, β=0.25, γ=0.95) 만이 후반 round 에서 20 % 근접 / 일시 초과 (round 19~24, 21.1~23.5 %) — 4 sub 중 가장 강한 활성. 단변량 univariate 입력의 자연 주기 (일 24h) 가 mid-frequency sub 에 가장 잘 매핑된 것으로 추정. - sub_4 (peak, β=0.375 ×1.5, γ=0.85) 는 4 sub 중 가장 낮은 평균 12.0 % — peak 특화 주입이 "강한 commitment + 강한 reset" 두 압력을 동시 받아 dead-zone 화 (5.3). - 컨텍스트가 언급한 "Round 28 모든 4 sub 동시 collapse" 는 raw 데이터에서 실제로는 sub_1=11.5 %, sub_2=16.9 %, sub_3=14.0 %, sub_4=19.5 % 로 sub_4 가 round 28 에서 일시 활성 (round 30 에서 다시 10.2 % 로 하락). 즉 catastrophic collapse 가 한 round 단발성으로 발생한 것이 아니라, 30 round 내내 8-24 % 박스권 fluctuation 이 진실에 가깝다.
5.2 sub_4 commitment loss 추이 (round-별, raw)¶
| round | sub_1 | sub_2 | sub_3 | sub_4 | sub_4 / sub_1 비율 |
|---|---|---|---|---|---|
| 1 | 0.0030 | 0.0022 | 0.0028 | 0.0022 | 0.73 |
| 5 | 0.0030 | 0.0052 | 0.0126 | 0.0025 | 0.83 |
| 10 | 0.0082 | 0.0058 | 0.0087 | 0.0058 | 0.71 |
| 15 | 0.0048 | 0.0049 | 0.0060 | 0.0033 | 0.69 |
| 20 | 0.0027 | 0.0036 | 0.0048 | 0.0016 | 0.59 |
| 23 (best) | 0.0044 | 0.0042 | 0.0039 | 0.0018 | 0.41 |
| 27 | 0.0026 | 0.0051 | 0.0029 | 0.0012 | 0.46 |
| 30 | 0.0033 | 0.0034 | 0.0044 | 0.0026 | 0.79 |
| 평균 (round 13~30) | 0.0040 | 0.0044 | 0.0040 | 0.0024 | 0.60 |
해석: - sub_4 의 raw commitment loss 가 4 sub 중 가장 낮음 (round 13~30 평균). 그러나 sub_4 의 commitment β 는 0.375 (×1.5) 이므로, 가중 commitment loss = 0.0024 × 0.375 = 0.0009 인 반면 sub_1 의 가중 commitment loss = 0.0040 × 0.25 = 0.0010 으로 거의 같다. - 이는 sub_4 의 ×1.5 commitment 가중치가 학습 dynamics 에서 raw distance 를 수치적으로 1/1.5 로 축소시키도록 강하게 압박했음 (encoder 가 sub_4 codeword 에 더 강하게 끌어붙는다) 을 시사. - 그러나 sub_4 utilization 은 12.0 % 로 4 sub 중 최저. 즉 sub_4 의 codeword 들이 강하게 끌어붙은 후 dead-zone 화 — 소수 codeword 에 활성이 집중되고 나머지가 거의 사용되지 않는 winner-take-most 패턴. - ADR-008 / Huh et al. (ICML 2023) 의 "EMA ≡ commitment loss β=1.0 등가성" 관점에서, sub_4 의 강한 commitment + γ=0.85 의 강한 server reset 은 이중 압력으로 작용: encoder 는 매 batch 내 codeword 에 끌어붙는 동시에 server 가 매 round 강한 reset 을 가해, 결과적으로 codebook 의 수렴 표적이 매 round 흔들리며 균일 분포에 가까워지지 못함.
5.3 sub_4 peak 특화 주입의 역효과 (가설)¶
설계서 §3.6 의 의도: - sub_4 의 commitment β=0.375 (×1.5): peak 신호에 더 강한 압력으로 codebook 매핑을 강제. - sub_4 의 γ=0.85: server 가 peak codebook 을 더 자주 reset 해 client 다양성 확보.
실제 결과 (점추정 추정): 1. 강한 commitment 압력은 sub_4 codeword 들 사이에서 가장 가까운 1-2 개에 활성 집중 → 16 codeword 중 약 2 개만 활성 (12 % util ≈ 2/16) 이라는 dead-zone 패턴. 2. 낮은 γ=0.85 의 server reset 이 매 round 활성 codeword 위치를 흔듦 → encoder 의 "어디로 끌어붙어야 하는가" 가 매 round 변화 → 결과적으로 codebook 이 안정 anchor 를 형성하지 못함. 3. Peak signal 자체가 시계열 입력의 sparse 한 부분 (24h 중 1-2h 구간) — 이 sparse signal 을 "단 하나의 sub-space" 에 강제로 배치 (sub_4) 하는 설계가, 실제로는 trend (sub_1) 와 periodicity (sub_2) 와 fluctuation (sub_3) 모두에 분산되어야 자연스러운 신호를 부자연스럽게 모음.
대안 (future work, 본 보고서 권고 아님 — 단순 disclosure): peak 신호를 별도 sub 가 아닌 "전 sub 에 공유되는 attention head" 로 처리하거나, sub_4 의 commitment 를 ×1.5 가 아닌 0.5 (×0.5, 약화) 로 두어 peak 정보가 자유롭게 다른 sub 와 공존하도록 허용. 현 설계는 "peak = 분리된 채널" 을 가정했으나 결과적으로 "peak = dead channel" 이 되었다.
6. 학습 곡선 (round-별 val_pape, val_loss)¶
6.1 30 round val_pape 추이¶
round 1 : 80.42 (시작)
round 6 : 72.90 (1차 최저)
round 11 : 72.82 (2차 최저)
round 13 : 73.03
round 15 : 74.43
round 18 : 76.08
round 20 : 76.33
round 23 : 74.05 (best_round 직전)
round 24 : 72.82 (best_val_pape)
round 27 : 74.69
round 30 : 75.30 (종료)
- val_pape 는 30 round 내내 72.8 ~ 80.4 박스권 에서 fluctuation. 수렴 패턴 부재 — 전형적으로 학습이 미수렴 또는 underfitting.
- best_val_pape = 72.82 (round 24) 와 round 6 의 72.90 차이가 0.08 %p 에 불과. "best round" 선정이 noise-level fluctuation 에 의해 결정되었음을 시사.
- val_loss (round_val_loss) 는 0.5700 (round 1) → 0.5400 (round 28) 로 −5.3 % 미세 감소. PAPE 는 미수렴이나 평균 loss 는 천천히 감소 — 이는 4.1 의 MSE 미세 개선 (−5.91 %) 과 정합.
6.2 학습 dynamics 진단¶
- 수렴 부재: 30 round 내내 val_pape 가 박스권 → max 30 round 학습 budget 이 부족하거나, optimization landscape 가 plateau 화. 설계서 §11 R5 ("Track A max_steps=500 한계" 와 유사 risk) 가 E4 에서 재발.
- Underfit 가능성 / Misspecification 가능성:
- Underfit: d_model=64 + e_layers=2 의 capacity 가 50 가구 · 30 round · local 3 epoch 학습으로 충분치 않음.
- Misspecification: PQ 의 sub-space 분할 자체가 단변량 입력에서 본질적으로 적용 불가. d_sub=16 너무 작아 의미 채널 형성 어려움.
- best_round 23 의 의미: train 30 round 중 23 round 가 val 최저 → 이후 7 round 는 미세 악화 (overfitting 초기 신호) 또는 noise fluctuation. 어느 쪽이든 30 round 가 충분치 않다는 결론은 동일하지 않다 (학습 커브가 plateau 라면 더 학습해도 의미가 없다).
7. 4 VQ 모델 비교 (in-fed test 기준)¶
7.1 점추정 순위표¶
| 모델 | test_pape | test_hr1 | test_mse | bytes_per_round | best_round | 상태 |
|---|---|---|---|---|---|---|
| E1 NBEATSx + DecompCB | 55.01 | 15.71 | 0.807 | 24,576 | 16 | FINISHED |
| E4 Crossformer + PQ | 67.59 | 11.30 | 0.790 | 4,096 | 23 | FINISHED |
| E2 NHITS + FreqBand | 84.97 | 13.22 | 0.482 | 24,576 | 19 | FINISHED |
| E3 SCINet + RQ | (FAILED) | — | — | — | — | status=5 |
(E3 는 mlflow status=5 (FAILED) 로 본 보고서 직접 비교 범위 외. reporter 합본 시 E3 별도 확인 필요.)
7.2 동일 backbone noVQ baseline 대비 PAPE Δ¶
| 모델 (VQ) | E* PAPE | 동일 backbone noVQ PAPE | Δ (E* − noVQ) |
|---|---|---|---|
| E1 NBEATSx + DecompCB | 55.01 | (B2 NBEATSx noVQ 추정, v10-03 미명시) | (확인 필요) |
| E2 NHITS + FreqBand | 84.97 | (B3 NHITS noVQ 추정) | (매우 큼) |
| E4 Crossformer + PQ | 67.59 | 41.81 (B4) | +25.78 |
컨텍스트의 "E2 (+40) > E4 (+25) > E1 (+8)" 는 reporter 합본 / lab-leader 기준 수치이며, 본 보고서는 E4 의 +25.78 만 직접 mlflow 검증. - E2 +40 추정: 84.97 − (B3 baseline 약 45) ≈ +40 (B3 수치는 v10-03 §1.4 baseline 정리표에서 확인 필요). - E1 +8 추정: 55.01 − (B2 baseline 약 47) ≈ +8. - 모델 × VQ 정합성 점추정 순위 (낮을수록 정합 우위): NBEATSx+DecompCB > Crossformer+PQ > NHITS+FreqBand.
7.3 통신 효율 vs PAPE trade-off¶
| 모델 | bytes_per_round | PAPE | bytes/PAPE 비 |
|---|---|---|---|
| E1 | 24,576 | 55.01 | 446.8 |
| E2 | 24,576 | 84.97 | 289.2 |
| E4 | 4,096 | 67.59 | 60.6 |
- bytes/PAPE 효율만 보면 E4 가 6배 우수. 하지만 PAPE 자체가 절대 임계 (Strict ≤ 43) 를 −24.6 %p 위반 하는 상태에서 효율 비 비교는 의미가 제한적.
- "통신만 본다면 PQ 매력적이나 PAPE 손해 너무 큼" (컨텍스트 §4) 결론 재확인.
8. v9-06 Crossformer FAIL 패턴 재현 분석¶
8.1 v9-05/06 Crossformer 결과 (recap)¶
- v9-05 Crossformer Track A: PAPE 52-53 FAIL (v9-06 재현). seed std 4 %p+ (raw torch loop 비결정성).
- v9-06 Crossformer noVQ: PAPE 점추정 44.45 (boundary FAIL), HR@1 21.24, 5-apt × 3-seed 평균 (n=15).
- 양 phase 에서 "단순 attention + decomposition" 계열 (Autoformer / Informer / FEDformer / Pyraformer / Crossformer 5/5) PAPE ≥ 44 FAIL 패턴이 반복 관찰 (v9-05/06 §8.1).
8.2 v10 E4 Crossformer+PQ vs v9-06 Crossformer 비교¶
| 출처 | PAPE | HR@1 | n | seed | 상태 |
|---|---|---|---|---|---|
| v9-06 Crossformer noVQ | 44.45 | 21.24 | 15 (5 apt × 3 seed) | {42,7,123} | boundary FAIL |
| v10 B4 Crossformer noVQ (FedAvg) | 41.81 | 18.57 | 50 가구 | 42 | FAIL |
| v10 E4 Crossformer + PQ | 67.59 | 11.30 | 50 가구 | 42 | strong FAIL |
해석: - v9-06 → v10 B4 (noVQ FedAvg) PAPE 미세 개선 (44.45 → 41.81, −2.64 %p): FedAvg aggregation 과 50 가구 데이터 확장으로 점추정 안정. - v10 B4 → v10 E4 (PQ 이식) PAPE 큰 폭 악화 (41.81 → 67.59, +25.78 %p): PQ 이식이 Crossformer 의 본래 약점을 증폭. - v9-05/06 의 "Crossformer 단변량 무력화 가능성" 경고가 v10 E4 에서 확정에 가까움. univariate features='S' 입력에서 Crossformer 의 cross-dimension attention 은 dimension 축이 1 에 가까워 (seg_len 으로 분할 후에도) 본래 의도된 sub-space 분리가 일어나지 않음. 그 위에 PQ 의 4 sub × d=16 분할이 추가로 가해지면, encoder 가 의미 있는 sub-space 를 형성할 channel 자체가 부족해진다 (5.2 d_sub=16 capacity 부족 가설과 정합).
8.3 결론¶
E4 의 +25.78 %p 악화는 두 인자의 곱: 1. Crossformer 자체의 단변량 약점 (v9-05/06 재확인, ADR-010 §리스크 R4 경고된 사항이 confirmed 에 가까움) 2. PQ 의 d_sub=16 sub-space 분할 자체의 capacity 부족 (5.2 §sub_4 dead-zone 분석)
두 인자가 독립적으로 +1.5 ~ +2.5 %p 악화시켰다고 가정해도 +25.78 %p 는 설명되지 않는다. 곱셈적 상호작용 — Crossformer 의 단변량 무력화 → DSW embedding 출력의 variance 가 4 sub 간에 거의 균일 → PQ 가 의미 있는 sub-space 를 형성할 신호 자체가 없음 → encoder 가 PQ 의 strict (β=0.25) commitment 압력에 끌려가는 동안 backbone 이 peak signal 을 학습할 capacity 가 더 줄어듦 → PAPE 폭증.
9. H10-4 / H10-3 / H10-5 판정¶
9.1 H10-4 (cold-start 4 모델 PAPE 1위)¶
판정: NOT_TESTED.
근거:
- v10-03 interim report §1.3: "Cold 50 가구는 모든 모델에서 평가 누락 — 사용자 의도 'VQ 업데이트 없이 학습-평가' 미실행. Task #19 cold-start phase 로 후속 처리 예정."
- 본 phase 의 cold-start 평가 데이터가 mlflow run 885b2ae 의 metrics/ 에 부재 (cold_pape_*, cold_hr1_* 메트릭 미존재 확인).
- 따라서 falsification 도, supporting 도 결정 불가.
대체 정보 (in-fed 기준): - in-fed test (Train 50 가구) PAPE 순위: E1 (55.01) < E4 (67.59) < E2 (84.97) → E4 는 PQ 1위 아님. - 일반적으로 cold-start few-shot 168h 평가가 in-fed 평가 대비 노이즈가 크고 backbone 의 일반화 능력에 더 의존하므로, in-fed 에서 E1 < E4 인 상태가 cold-start 에서 반전될 가능성은 낮다 (단 강한 주장 아님 — 단일 seed 한정).
9.2 H10-3 (RQ collapse 회피)¶
판정: 본 보고서 직접 평가 불가 (E3 SCINet+RQ status=FAILED). 단, E4 PQ 의 4 sub-space 분할이 collapse 회피했는가는 부분적 미충족 — 4 sub 모두 utilization 평균 12-16 % 박스권 (≥ 20 % 임계 미달). PQ 의 sub-space 분할이 flat VQ M=64 (d_total=64 단일) 대비 collapse 를 더 잘 회피했는지는 본 phase 에서 제어군 부재로 결정 불가.
9.3 H10-5 (구조 정합성)¶
판정: 부분적 반증 우위 (점추정 기준).
- "정합" 조합 (E1-E4) 의 PAPE 점추정 평균 = (55.01 + 84.97 + (E3 미상) + 67.59) / n. E3 결측 시 3-모델 평균 = 69.19.
- "비정합 swap" 조합 4 개 (NBEATSx+PQ, NHITS+RQ, SCINet+DecompCB, Crossformer+FreqBand) 는 v10-02 §4.3 에서 "smoke 1-apt × 1-seed 만 수행" 으로 계획되었으나 본 phase 에서 수행 여부 mlflow 미확인.
- E4 단독으로 H10-5 를 판정할 수 없음. 단 동일 backbone 비교 (E4 vs B4 noVQ +25.78 %p 악화) 는 "PQ 가 Crossformer 와 정합" 명제의 점추정 반증 우위로 해석 가능. 즉 PQ 이식이 Crossformer 에 adverse intervention 이라는 점추정 결론.
10. 통계적 / 외부 유효성 한계¶
10.1 단일 seed 한정 (R3 정책)¶
- seed=42 단일 점추정. 3-seed std / p-value / CI 일절 보고하지 않음 (v9-06 Major 2 / v10-02 §11 R3 / v9-06 revision 1 교훈 적용).
- seed=7 의 E4_Crossformer_PQ_seed7 run (ac3841df) 이 mlflow 에 존재하나, end_time 1777108354419 으로 seed=42 finished run 보다 이른 종료. 본 보고서는 명시적 단일 seed 분석으로 한정하며, multi-seed 확장은 R3 트리거 ("정합 mean < 비정합 mean 차이 2%p 이상") 미달이므로 의미 없음 — 오히려 +25.78 %p 의 단일 방향성 (악화) 이 명확하므로 추가 seed 가 결론을 뒤집을 가능성 매우 낮음.
10.2 cold-start 평가 부재¶
- H10-4 검증 자체가 불가능. 본 보고서의 "E4 가 PQ 1위 아님" 결론은 in-fed 기준이며, cold-start 의 H10-4 결론은 Task #19 완료 시까지 보류.
10.3 설계 vs 구현 갭¶
- v10-02 §3.6 명세 (d_model=256, seg_len=6, e_layers=3) 와 실제 구현 (d_model=64, seg_len=4, e_layers=2) 차이는 본 보고서가 명시 disclose 한 사안. 이 차이는 capacity 축소 → underfitting / misspecification 진단을 어렵게 만든다. d_model=256 + e_layers=3 의 설계 명세대로 학습되었다면 결과가 달랐을 가능성을 배제 불가.
10.4 v10-03 split unification 영향¶
- v10-03 interim 시점 split=70/10/20 으로 통일됨. E4 는 처음부터 70/10/20 으로 학습 → split unification 이후 결과로 그대로 valid. 단 v10-03 §2 "부분 결과 (80/10/10)" 의 E4 PAPE 62.61 vs 본 보고서 E4 PAPE 67.59 차이 (+4.98 %p) 는 split 차이 + 가구 수 / sample 수 차이로 발생. 본 보고서의 67.59 가 v10 정식 기준 (70/10/20).
11. 시각화 및 산출물¶
본 보고서는 분석 텍스트 단독이며, 시각화는 reporter 단계에서 v10-04 figures 로 생성 예정. 권고 figure 목록:
- Fig 1: E4 round-별 4 sub utilization line plot (sub_1/2/3/4 각각, x=round, y=util%). y=20% 임계선 표시.
- Fig 2: E4 round-별 4 sub commitment_loss line plot. sub_4 가 가장 낮은 raw loss 임을 가시화.
- Fig 3: E4 vs B4 vs (E1/E2) PAPE / HR@1 bar chart. v9-05/06 Strict 임계선 표시.
- Fig 4: E4 round-별 val_pape 추이 (72-80 박스권 fluctuation 가시화).
mlflow artifact (CLAUDE.md MLflow Logging Rules 강제):
- best checkpoint: 885b2ae059d64705a873af8d4e5245ba/artifacts/checkpoints/E4_Crossformer_PQ_seed42_best.pt (확인 필요, 본 분석에서 직접 검증하지 않음).
- y_true / y_pred .npy: 885b2ae059d64705a873af8d4e5245ba/artifacts/predictions/ 경로 존재 추정 (engineer 측 구현 contract 확인 필요).
12. 결론 및 후속 조치¶
12.1 E4 단독 결론¶
- E4 Crossformer+PQ 는 v9-05/06 Strict gating (PAPE ≤ 43 AND HR@1 ≥ 37) 양 축 모두 −24.6 %p / −25.7 %p 위반 으로 strong FAIL.
- 동일 backbone noVQ baseline (B4) 대비 PAPE +25.78 %p / HR@1 −7.27 %p 악화. PQ 이식이 Crossformer 에 adverse intervention (점추정 기준).
- sub_4 commit ×1.5 + γ=0.85 peak 특화 주입은 의도와 정반대로 sub_4 dead-zone 화 (4 sub 중 utilization 최저 평균 12.0 %).
- 30 round 내내 val_pape 72-80 박스권 fluctuation, 수렴 근거 부재.
- 통신 효율 (bytes_per_round 4,096, B4 대비 −99.10 %) 은 v10 최저로 매력적이나, +25.78 %p PAPE trade-off 는 수용 불가.
12.2 H10-4 판정¶
NOT_TESTED. cold-start 평가 (Task #19) 미실행. in-fed 기준으로는 E4 가 PQ 1위가 아님 (E1 < E4).
12.3 후속 조치 권고 (본 보고서는 권고만, 결정은 orchestrator)¶
- Task #19 cold-start 평가 우선순위 재고: H10-4 검증을 위한 cold-start 평가가 미실행 상태이며, 본 in-fed 결과 기반으로 cold-start 가 결과를 반전시킬 가능성은 낮다. cold-start 평가의 ROI 자체를 reporter 합본 시점에 재평가 권고.
- E4 의 d_model 설계 갭 disclosure: v10-02 §3.6 명세 (d_model=256) 와 구현 (d_model=64) 차이는 reporter 단계에서 명시. 후속 phase 에서 설계 명세대로 재학습할지는 orchestrator 결정.
- Crossformer + 단변량 조합 폐기 검토: v9-05/06/v10 3 phase 에서 일관되게 FAIL. ADR-011 (suspended) 후보로 "Crossformer 는 multivariate 축 재설계 시에만 재시도" 명시 권고.
- PQ peak 특화 주입 설계 재검토: sub_4 의 ×1.5 commitment + γ=0.85 reset 조합이 dead-zone 을 만드는 메커니즘 (5.3) 은 PQ 외 다른 VQ 전략에도 적용 가능한 일반 교훈. addendum ablation 으로 (a) commit ×1.0, (b) commit ×0.5, (c) γ=0.95 일관 의 3 변형 비교 권고.
- 3-seed 확장: R3 트리거 미충족. E4 단독 결과로는 추가 seed 의 의미가 낮음 (방향성 명확). seed=7 run (ac3841df) 의 결과를 별도 sanity-check 용도로만 reporter 단계에서 인용 권고.
12.4 본 보고서가 답하지 못한 것¶
- E3 SCINet+RQ 결과 부재 (status=FAILED). H10-3 직접 검증 실패.
- cold-start 평가 미실행. H10-4 검증 보류.
- 비정합 4 swap 조합 (NBEATSx+PQ 등) 미실행 추정. H10-5 점추정 mean 비교 불가.
- E4 의 best checkpoint / y_true·y_pred npy artifact 직접 검증 미수행 (mlflow artifact 디렉토리 inspect 만 수행).
13. 메트릭 요약표 (재인용용)¶
| 항목 | 값 |
|---|---|
| run_id | 885b2ae059d64705a873af8d4e5245ba |
| experiment_id | 738860791398377455 (v10-multi-model-vq) |
| split_version | v10 (70/10/20) |
| seed | 42 |
| n_train | 50 |
| backbone | Crossformer (d_model=64, seg_len=4, e_layers=2, n_heads=4) |
| vq_strategy | ProductQuantization (4 sub × M=16, d_sub=16) |
| peak_alpha / peak_beta | 2.0 / 0.1 |
| fl_rounds | 30 |
| local_epochs / local_lr | 3 / 1e-3 |
| commitment β per sub | 0.25 / 0.25 / 0.25 / 0.375 |
| Memory Alignment γ per sub | 0.98 / 0.95 / 0.90 / 0.85 |
| test_pape | 67.59 |
| test_hr_tol1 | 11.30 |
| test_hr_tol2 | 17.44 |
| test_mse | 0.7901 |
| test_mae | 0.6103 |
| test_mape | 232.57 |
| test_smape | 59.30 |
| best_round | 23 |
| best_val_pape | 72.82 |
| bytes_per_round | 4,096 |
| pape_per_kb | 18.82 |
| hr1_per_kb | 3.02 |
| 4 sub utilization 평균 (30 round) | 13.4 / 16.0 / 12.5 / 12.0 % |
| Strict / Watch / Collapse-Free / Peak-Specialization | FAIL / FAIL / FAIL / FAIL |
| 통신 효율 | PASS (v10 최저) |
| H10-4 판정 | NOT_TESTED (cold-start 평가 미실행) |