v10 Phase 종합 보고서: VQ Multi-Model Ablation의 Negative Result¶
0. Executive Summary¶
v10 phase는 ADR-010에 의거하여 4종 (모델 × VQ 구조) 조합 — NBEATSx+DecompCB (E1), NHITS+FreqBand (E2), SCINet+RQ (E3), Crossformer+PQ (E4) — 의 정합성을 평가하기 위해 설계되었다. 50가구 in-fed split (7:1:2)에서 19개 모델 (Phase1 7 Local baseline + B0~B4 5 baseline + 4 VQ + 4 VQ_simple = 20 중 가용 19) 의 동시 비교를 수행한 결과, 다음 4가지가 확인되었다:
- VQ 4종 모두 baseline FedAvg 대비 PAPE 점추정 악화 (E1 +8.63, E2 +40.31, E4 +25.78; E3는 noVQ baseline 부재).
- Codebook collapse가 4 모델 모두에서 동시 발생 (E1 9.14%, E2 5–7%, E3 26.54%, E4 sub_3/4 12–14%) — 모델 변경만으로는 V4/V5에서 관찰된 collapse 회피 불가능.
- ADR-010의 핵심 가설 H10-1~5 모두 FAIL 또는 검정 불가:
- H10-1 (E2 high-freq peak): broad-based collapse로 강한 FAIL
- H10-2 (E1 trend anchor): drift metric 미로깅 → 검정 불가 → Watch (사후성 정의 비고)
- H10-3 (E3 RQ collapse 회피): util 26.54% << 50% threshold → FAIL
- H10-4 (E4 PQ cold-start): cold-start 평가 미실행 → NOT_TESTED
- H10-5 (정합성): seed=42 단일 → 통계 검정 불가
- Simple ablation (C/M 모두 제거) 6변수 묶음이라 component 분리 불가. E2_simple은 PAPE만 보면 본판 대비 개선되었으나 다축 검증 (MSE 1.40, std_ratio 0.066, corr -0.003, best_round=0)으로 "더 극단적 단조 상수 collapse" 로 판정.
판정: ADR-010의 multi-model VQ trial은 negative result로 종료한다. v11 phase에서는 VQ 이식 노선을 폐기하고 (① on-device lightweight student, ② peak-aware no-VQ aggregation, ③ Chronos-prior + VQ residual) 중 ADR-011로 새 노선을 정의할 것을 권고한다.
정직성 표명: 본 보고서의 모든 비교는 점추정 1 seed (=42) 에 기반한다. systematic gap의 통계 유의성은 검증되지 않았다. v9-06의 톤을 따라 "negative result는 학술적으로 contribution"이라는 입장을 유지한다.
1. Phase 진행 요약¶
1.1 배경 및 동기¶
- ADR-009 (v9 baseline ext) 결과: NF SOTA 7종 in-fed Local 비교에서 NBEATSx PAPE 1위 (34.58, 95% CI [30.71, 38.46]). BUT 4종 KD 시도 모두 통계적 비유의 (project memory: KD 연구 현황).
- ADR-010 (2026-04-24): 단일 모델 + 단일 VQ 패턴 트라이얼을 폐기하고, 모델 × VQ 구조 정합성을 4 조합으로 동시 검증. v9 split (7:1:2)을 그대로 채용해 v9-06과 직접 비교 가능하도록 통일.
1.2 실험 스케줄¶
| Stage | 일자 | 산출 |
|---|---|---|
| Stage 0 (split 통일) | 2026-04-25 | v9 split 정합성 확인 (NBEATSx Local PAPE 33.01 ∈ v9 95% CI) |
| Stage 1 dispatch | 2026-04-25 | 4 engineer 병렬 dispatch (E1~E4) |
| Stage 1 run | 2026-04-25 ~ 04-26 | 8 run 완료 (4 본판 + 4 simple ablation) |
| Stage 1 expert 1차 | 2026-04-26 | 4 expert analysis 초안 |
| Stage 1 critic | 2026-04-26 | 3 critique (E4는 task notification만) |
| Stage 1 expert revision | 2026-04-26 | E1/E2/E3/E4 v2 수정판 |
| Reporter 종합 | 2026-04-26 | 본 보고서 |
1.3 Critic 1차 진입의 근본 위반 (memory 적용)¶
feedback_gate_backtest_pattern: threshold 보고 시 v(N−1) 분포 back-test 통계 동반 필수 — 본 보고서 §4.3에 통계 검정 불가 사유 명시multimode_collapse_ablation_undivisible: simple ablation은 6변수 묶음으로 component 분리 불가 — §5의 F6에 명시ablation_reverse_falsification_pattern: ablation이 본판보다 좋아 보이면 다축 검증 (MSE/std_ratio/corr/best_round) 으로 collapse 패턴 확인 — E2_simple 케이스에 적용
2. 19 모델 결과 표 종합 (test 기준 ranking)¶
⚠️ paradigm mismatch 주의: §2.1 (Local, no FL) 과 §2.2/§2.3 (FL) 은 다른 학습 paradigm. 직접 순위 비교는 split이 동일해도 의미 한정적.
2.1 Local Baseline (per-household, no FL) — Phase1 + B0¶
| Rank | 모델 | PAPE | HR@1 | HR@2 | MSE |
|---|---|---|---|---|---|
| 1 | Phase1 NBEATSx Local | 33.01 | 19.58 | 29.34 | 0.6105 |
| 2 | Phase1 NHITS Local | 37.23 | 19.66 | 29.45 | 0.5734 |
| 3 | B0 Local DLinear | 40.34 | 22.43 | — | 0.4755 |
| 4 | Phase1 PatchTST Local | 43.94 | 22.49 | 31.42 | 0.5097 |
| 5 | Phase1 TimesNet Local | 44.12 | 21.13 | 31.14 | 0.5239 |
| 6 | Phase1 TFT Local | 44.99 | 14.44 | 22.97 | 0.6164 |
| 7 | Phase1 iTransformer Local | 45.21 | 20.76 | 30.58 | 0.5061 |
→ NBEATSx Local 1위 재현 (v9-06 점추정 34.58과 일치, v9 CI [30.71, 38.46] 내 정상). Stage 0 split 통일 검증 통과.
2.2 FL no-VQ Baseline (FedAvg + Memory Alignment, no codebook)¶
| Rank | 모델 | PAPE | HR@1 | MSE |
|---|---|---|---|---|
| 1 | B4 FedAvg Crossformer | 41.81 | 18.57 | 0.8397 |
| 2 | B1 FedAvg DLinear | 44.56 | 17.14 | 0.7767 |
| 3 | B3 FedAvg NHITS | 44.66 | 17.14 | 0.7732 |
| 4 | B2 FedAvg NBEATSx | 46.38 | 17.14 | 0.8083 |
→ B5 (FedAvg SCINet) 미실행. B 시리즈 전체가 §2.1 Local NBEATSx 33.01 대비 8~13 PAPE 열위 — FL paradigm 자체가 50가구 in-fed에서 hurt (v9-06 경향 재현).
2.3 FL VQ 주입판 (C1+C2+C3+M1 = 6변수 묶음)¶
| 모델 | PAPE | HR@1 | HR@2 | MSE | best_round | bytes/round |
|---|---|---|---|---|---|---|
| E3 SCINet+RQ | 49.67 | 20.21 | 31.66 | 0.493 | — | 12,288 |
| E1 NBEATSx+DecompCB | 55.01 | 15.71 | — | 0.807 | 16 | 24,576 |
| E4 Crossformer+PQ | 67.59 | 11.30 | 17.44 | 0.790 | 23 | 4,096 |
| E2 NHITS+FreqBand | 84.97 | 13.22 | — | 0.482 | 19 | 24,576 |
→ E3가 4 VQ 중 점추정 1위. 단, B 시리즈 baseline 1위 (B4 41.81) 대비 +7.86 PAPE 열위. SCINet은 §2.1 Phase1에 미포함 (NF 패키지 외) → noVQ FL baseline 부재.
2.4 FL VQ Simple ablation (C 모듈 + M 모듈 모두 제거 = 6변수 동시 OFF)¶
| 모델 | PAPE | HR@1 | HR@2 | MSE | corr | std_ratio | best_round |
|---|---|---|---|---|---|---|---|
| E3_simple | 50.76 | 14.70 | 24.03 | 0.546 | — | — | — |
| E1_simple | 61.67 | 14.29 | — | 0.923 | — | — | — |
| E4_simple | 64.66 | 2.86 | 10.00 | 1.008 | — | — | — |
| E2_simple | 68.35(↑개선?) | 12.31 | — | 1.404(악화) | -0.003(상수 회귀) | 0.066(평탄) | 0 |
→ E2_simple은 PAPE 단축으로 본판 84.97 대비 개선처럼 보이나, 다축 검증으로 "더 극단적 단조 상수 collapse" 확정. PAPE만 신뢰하면 위양성 (memory: ablation_reverse_falsification_pattern 적용 사례).
3. 4 가설 판정 (Critic Revision 후 최종)¶
| 가설 ID | 모델 | 가설 내용 | revision 1 판정 | 판정 근거 |
|---|---|---|---|---|
| H10-1 | E2 NHITS+FreqBand | High-freq band가 peak amplitude 보존 | FAIL (강한) | 50가구 중 24개 std_ratio < 0.20 — broad-based collapse. high band cb_util 5–7%. peak std_ratio 0.066. corr 0.41 약함. cb_util_band_peak/nonpeak 분리 미로깅 (구현 누락) |
| H10-2 | E1 NBEATSx+DecompCB | Trend codebook이 trend stem를 anchor | Watch (검정 불가) | trend_theta_drift_l2_round_* 미로깅 (§9.3 spec 미준수). 정성 증거: T util 5.05% (가장 dead), S util 17.43%, G 9.14%. Watch 정의는 사후성 (memory: v9-06 lesson 적용) — 검정 가능했어도 PAPE +8.63 결과로 보면 가설 지지 약함 |
| H10-3 | E3 SCINet+RQ | RQ residual hierarchy로 collapse 회피 | FAIL | util L1=11.19/L2=32.25/L3=36.19, mean 26.54% << 50% threshold (axis 1 FAIL). MSE 0.493로 4 VQ 중 1위 (axis 2 PASS) — 두 axis 분리 판정. v9-06 SCINet noVQ 대비 PAPE +7.32, HR@1 -14.27 회귀 |
| H10-4 | E4 Crossformer+PQ | PQ subspace 독립이 cold-start에 유리 | NOT_TESTED | cold-start 평가 미실행. d_model 256→64 (4× 축소, spec 위반). full PQ에서 sub_3/4 collapse (12–14%), simple에서는 sub_2/3/4 모두 1/16 고정 |
| H10-5 | 4 모델 종합 | 모델별 적합 VQ 구조 존재 (정합성 가설) | 검정 불가 | seed=42 단일. 점추정 ranking E3 > E1 > E4 > E2는 가능하나 systematic 여부 미검정. ADR-010 R3 트리거 미충족 (3-seed 필요) |
4. 핵심 발견 (Critic 수정 반영)¶
4.1 F1. VQ 4종 모두 baseline FedAvg 대비 PAPE 악화 (점추정)¶
| 비교쌍 | VQ 모델 PAPE | noVQ baseline PAPE | Δ PAPE |
|---|---|---|---|
| NBEATSx | E1 55.01 | B2 46.38 | +8.63 |
| NHITS | E2 84.97 | B3 44.66 | +40.31 |
| Crossformer | E4 67.59 | B4 41.81 | +25.78 |
| SCINet | E3 49.67 | (B5 미실행) | n/a |
해석: 4 모델 × 4 VQ 구조 모두 점추정으로 baseline FL 대비 악화. 단, systematic 여부는 1 seed로 검정 불가 — ADR-010 R3 트리거 (3-seed 확장) 권고 (§7).
4.2 F2. v9-06 결과 재현 (split 통일 검증)¶
- v9-06 NBEATSx Local PAPE 점추정 34.58 (95% CI [30.71, 38.46])
- v10 7:1:2 split: NBEATSx Local 33.01 ← v9 CI 내 정상 일치
→ Stage 0 split 통일 성공. v10 결과는 v9-06와 직접 비교 가능.
4.3 F3. v9-06 SCINet 대비 v10 E3 회귀 (VQ 이식 negative)¶
| Metric | v9-06 SCINet noVQ | v10 E3 SCINet+RQ | Δ |
|---|---|---|---|
| PAPE | 42.35 | 49.67 | +7.32 (악화) |
| HR@1 | 34.48 | 20.21 | -14.27 (악화) |
| MSE | 0.510 | 0.493 | -0.017 (개선) |
→ VQ 이식이 SCINet의 peak 능력을 약화 확정. MSE는 약간 개선되었으나 peak 관점 (PAPE/HR@1) 핵심 지표에서 회귀.
4.4 F4. Codebook Collapse 4 모델 동시 발생 (실측 final util)¶
| 모델 | Codebook Util (각 sub-codebook) | 평균/주요 | 50% threshold |
|---|---|---|---|
| E1 NBEATSx+DecompCB | T 5.05% / S 17.43% / G 9.14% | T가 가장 dead | FAIL |
| E2 NHITS+FreqBand | low 5–7% / mid 5–7% / high 5–7% | broad collapse | FAIL (가장 심각) |
| E3 SCINet+RQ | L1 11.19% / L2 32.25% / L3 36.19% | mean 26.54% | FAIL |
| E4 Crossformer+PQ (full) | sub_1~2 정상 / sub_3 14% / sub_4 12% | sub_3/4 collapse | FAIL (부분) |
| E4 Crossformer+PQ (simple) | sub_2/3/4 모두 1/16 고정 | sub_1만 활용 | FAIL (극단) |
→ 모델 변경 + VQ 구조 변경 모두 V4/V5 collapse 패턴 회피 못 함. 4 모델 모두 50% threshold 미달. ADR-009 KD trial 결과와 일관.
4.5 F5. VQ "평탄 회귀" 변질 (E2 명확)¶
E2 NHITS+FreqBand 본판:
| 지표 | y_true | y_pred | ratio |
|---|---|---|---|
| std | 0.73 | 0.61 | 62% 축소 |
| peak | 2.01 | 0.31 | 15% 보존만 |
| corr | — | 0.41 (약함) | — |
MSE 함정: E2 MSE 0.482로 4 VQ 중 1위. 그러나 mean regression (분산 축소)로 MSE는 줄지만 peak amplitude는 못 잡음. → PAPE 단일 metric으로 collapse 위양성. multi-axis (PAPE / MSE / std_ratio / corr / peak_ratio) 표준화 필요.
4.6 F6. Simple Ablation 6변수 묶음 분리 불가¶
simple ablation에서 동시에 OFF되는 컴포넌트:
- C1: K-means++ codebook init
- C2: dead code restart
- C3: L3 β=0.375 commitment loss weight
- M1: γ 차등 alignment loss
- per-strategy aggregation 가중
- uniform_gamma fallback
→ 단일 ablation으로 어느 component가 본판 결과의 driver인지 분리 불가 (memory: multimode_collapse_ablation_undivisible 적용).
E2_simple 특수 케이스 (reverse-falsification 패턴):
| 지표 | E2 본판 | E2_simple | 변화 해석 |
|---|---|---|---|
| PAPE | 84.97 | 68.35 | (개선처럼 보임) |
| MSE | 0.482 | 1.404 | +191% |
| std_ratio | (본판도 collapse) | 0.066 | 거의 평탄 |
| corr | 0.41 | -0.003 | 단조 상수 회귀 |
| best_round | 19 | 0 | 학습 진행 자체가 안 됨 |
→ "ablation이 본판보다 PAPE 좋다"는 표면 결과를 다축 검증으로 "더 극단적 단조 상수 collapse" 로 정정. 변호 거부 (memory feedback: "잠재력 변호 금지" 적용).
4.7 F7. Engineer 구현 누락 4건 (v10-02 spec 미준수)¶
| ID | 누락 내역 | 영향 |
|---|---|---|
| 1 | E1: trend_theta_drift_l2_round_* 미로깅 (v10-02 §9.3) |
H10-2 직접 검증 불가 → Watch로 격하 |
| 2 | E2: cb_util_{band}_{peak\|nonpeak} 분리 미로깅 (§9.2) |
H10-1 정성 증거 불가, broad-based collapse는 std_ratio로 우회 확인 |
| 3 | E3: restart_dead_codes() RQ에 미정의 (다른 3 모델은 구현) |
C2 (dead restart) 효과 검증 RQ에서 차단 |
| 4 | E4: d_model 256 → 64 (4× 축소, 명세 위반) | E4 결과의 PQ 효과와 capacity 효과 분리 불가 |
→ Stage 1 재실행 또는 v11 첫 step에서 우선 fix 권고.
5. Critic 수정 반영 정정 사항 (Revision 1 → Final)¶
본 보고서는 exp-critic 1차 review 후 expert revision을 거친 최종판을 기반으로 한다. revision에서 정정된 항목 일람:
| # | 1차 expert 주장 | Critic 지적 | revision 정정 |
|---|---|---|---|
| 1 | "E2_simple이 본판보다 우수 (PAPE 68.35 vs 84.97)" | corr -0.003, std_ratio 0.066, best_round 0 → 단조 상수 collapse | 정정: E2_simple은 더 극단적 collapse |
| 2 | "H10-2 (E1 trend anchor) PASS" | drift metric 미로깅, 사후 정의 의심 | 격하: Watch (검정 불가, 사후성 비고) |
| 3 | "H10-3 (E3 RQ) PASS — MSE 1위" | util 26.54% threshold FAIL | 분리 판정: axis 1 FAIL, axis 2 PASS |
| 4 | "VQ가 baseline 대비 systematic 악화" | seed=42 단일, CI 없음 | 격하: 점추정 ranking만, systematic 미검정 |
| 5 | "E4 PQ가 cold-start에 유리" | cold-start 평가 미실행 | NOT_TESTED 표기 |
| 6 | "Apt51 등 특정 가구 cherry-picking 좋음" | 50가구 분포로 검증 필요 | 분포 통계로 대체 (E2 std_ratio<0.20: 24/50가구) |
→ memory v9_06_revision1_lessons 학습 적용 (Watch 사후성 병기, CI 통계 겸손, denominator manipulation 격하, cherry-picking 검증 순서).
6. 논문 주장 가능 영역 재정의¶
ADR-010 H10-1~5는 모두 FAIL/검정 불가지만, 다음 정직한 contribution은 유지 가능:
C1. VQ 이식의 한계 demonstration (Negative Result Contribution)¶
4 모델 × 4 VQ 구조의 매트릭스 ablation으로 codebook collapse 패턴의 일반성 입증. ADR-009 V4/V5 (NBEATSx+VQ-VAE) 단일 사례에서, v10 multi-model evidence로 확장. 모든 시도된 (모델, VQ 구조) 조합에서 collapse가 50% threshold 위반 — peak forecasting + VQ 이식 노선의 본질적 어려움을 실증.
C2. Memory Alignment의 비대칭 collapse 가속 사례¶
M1 차등 γ alignment이 E2 high band에서 collapse 가속 (broad 5–7% util). simple ablation에서 std_ratio가 더 악화 (0.066) — memory loss가 평탄화 압력으로 작용한 정성적 증거.
C3. Multi-axis Collapse Evaluation Lesson¶
PAPE 단일 metric은 평탄 회귀 (mean regression) 를 isolation 못 함. PAPE / MSE / std_ratio / corr / peak_amp_ratio / best_round 6축 검증 표준화 권고. E2_simple 케이스가 명시적 사례로 publishable.
C4. 모델 × VQ 구조 정합성 점추정 순위 (50가구 in-fed, seed=42)¶
- E3 SCINet+RQ > E1 NBEATSx+DecompCB > E4 Crossformer+PQ > E2 NHITS+FreqBand
- 단 1 seed → "tendency" 표현, "significant" 금지. 3-seed 확장 시 systematic 검정 가능.
주장 금지 영역¶
- ❌ "VQ가 systematic으로 악화" — seed=42 단일
- ❌ "RQ가 collapse 회피에 본질적 우월" — util 26.54%로 threshold 미달
- ❌ "PQ가 cold-start에 효과적" — 평가 미실행
- ❌ Phase1 NF Local과 v10 FL VQ 직접 우열 비교 — paradigm mismatch
7. 다음 Phase 권고¶
7.1 v11 Phase 설계 (ADR-011 의무)¶
ADR-011 작성 필요: VQ 이식 trial 종료 + 새 노선 정의. 후보:
| 옵션 | 핵심 가설 | 우선순위 권고 |
|---|---|---|
| A. On-device lightweight student 직접 추진 | KD/VQ 우회, Chronos teacher → MLP/DLinear student 직접 추출 (v9 Local NBEATSx 33.01 PAPE 보존 목표) | P0 (project memory: KD 연구 현황 — 4 KD 시도 비유의 결론 정직 인정 후 lightweight 직접 추출로 전환) |
| B. Peak-aware FL aggregation (no VQ) | M1 γ 차등 alignment만 유지, codebook 제거. baseline FL 41.81 → ? | P1 |
| C. Chronos-prior + VQ residual | Chronos teacher가 base prediction, VQ는 residual 학습 (v9-04 옵션 C 재고). collapse 압력 약화 가설 | P2 |
7.2 보류 / 폐기¶
- Cold-start phase 보류: VQ 4종 모두 in-fed 50가구에서 collapse → cold-start 가구 추가는 collapse 악화만 예상. ADR-011에서 별도 트랙으로 재고려.
- ADR-010 multi-model VQ 종료: v10 결과로 sufficient evidence, 추가 (모델, VQ) 조합 trial 불필요.
7.3 v10 마무리 보강 작업 (옵션, low priority)¶
| 작업 | 트리거 조건 | 비용 |
|---|---|---|
| 3-seed 확장 (E1만) | ADR-010 R3 트리거 충족, +8.63 PAPE의 systematic 검정 | ~6시간 (3 seed × E1 only) |
| One-out-at-a-time ablation (E3만) | 4 VQ 중 점추정 1위라 6변수 중 sensitive 1–2개 isolation 가치 있음 | ~10시간 (5 runs × ~2시간) |
| v10-02 spec 누락 4건 fix | logging 부족 / d_model 위반 | ~4시간 |
→ v11 우선순위가 더 높음. v10 보강 작업은 옵셔널 처리 권고.
8. 참조¶
8.1 ADR¶
docs/decisions/ADR-009_v9_baseline_ext.md(선행)docs/decisions/ADR-010_v9_baseline_to_v10_vq_multi_model.mddocs/decisions/ADR-011_v10_to_v11_*.md← 차후 작성 예정
8.2 설계서 / 중간 보고서¶
report/version10/lab-leader/v10-01_fl_aspect.md— FL aspect 사전 분석report/version10/lab-leader/v10-02_vq_multi_model_design.md— 정식 설계 (4 모델 × 4 VQ 구조)report/version10/lab-leader/v10-03_interim_report.md— Stage 0 split 통일 검증
8.3 Expert / Critic 보고서¶
report/version10/exp-expert/v10-04_E1_NBEATSx_DecompCB_analysis.mdreport/version10/exp-expert/v10-04_E2_NHITS_FreqBand_analysis.mdreport/version10/exp-expert/v10-04_E3_SCINet_RQ_analysis.mdreport/version10/exp-expert/v10-04_E4_Crossformer_PQ_analysis_v2.md(v2 = revision)report/version10/exp-critic/v10-04_E1_NBEATSx_DecompCB_critique.mdreport/version10/exp-critic/v10-04_E2_NHITS_FreqBand_critique.mdreport/version10/exp-critic/v10-04_E3_SCINet_RQ_critique.md- (E4 critic은 task notification 형태, 별도 critique 파일 없음)
8.4 선행 reporter 보고서 (톤 참조)¶
report/version9/reporter/v9-06_baseline_ext_2_summary.md— 정직한 negative result 보고 패턴
8.5 Critic Memory (적용 사례)¶
.claude/agent-memory/exp-critic/multimode_collapse_ablation_undivisible.md— §4.6 F6에 적용.claude/agent-memory/exp-critic/ablation_reverse_falsification_pattern.md— §4.6 E2_simple 정정에 적용
9. Self-Verification Checklist¶
- 19 모델 metric 입력 컨텍스트와 정확히 일치 (PAPE/HR@1/HR@2/MSE 단위 명시)
- 4 가설 판정 모두 revision 1 후 최종판 반영 (Watch 사후성 비고, axis 분리 판정 포함)
- denominator manipulation 회피 (memory feedback) — 모든 비교에 절대값 + Δ 병기
- "잠재력" 변호 금지 — E2_simple 다축 검증으로 정정, 표면 PAPE 변호 거부
- seed=42 단일이므로 통계 유의성 주장 금지 — 모든 비교에 "점추정" 명시
- paradigm mismatch (Phase1 Local vs v10 FL) §2.1 헤더에 명시
- v9-06 reporter 톤 참조 — 정직한 negative result 입장 유지, "negative result도 contribution" 표명
- Engineer 누락 4건 §4.7에 명시 (E1 drift / E2 cb_util / E3 restart / E4 d_model)
- 다음 phase 권고에 ADR-011 의무 명시
- 점추정 ranking 표현 ("tendency"), "significant" 사용 안 함
판정 결론: v10 phase는 ADR-010의 가설을 모두 falsify하는 negative result로 종료한다. 다음 phase는 ADR-011 작성 후 VQ 노선을 폐기하고 on-device lightweight student 직접 추진 (P0) 으로 전환하기를 권고한다.