콘텐츠로 이동

2026

v10-02 Multi-Model VQ × Structured Codebook × Peak-Specialized FL — Formal Goal Analysis

Source: report/version10/lab-leader/v10-02_vq_multi_model_design.md

v10-02: Multi-Model VQ × Structured Codebook × Peak-Specialized FL — 정식 설계서

본 문서는 초안 v10-01_fl_aspect.md 의 16-섹션 구조를 유지하면서, ADR-010(2026-04-25 Accepted) 및 user 승인 수정사항을 반영한 정식 설계서이다. 초안은 archival 용으로 보존되며 본 문서가 engineer dispatch 기준이 된다.


0. Executive Summary

  • 문제 재정의: v6~v9 전체 phase는 "DLinear 대체 VQ-친화 backbone 탐색" 축에서 전개되었고, v9-06 에서 (1) NBEATSx — PAPE 점추정 1위 34.58 (통계 비유의, 95% CI [30.71, 38.46]), (2) SCINet — v9-06 Watch PASS (PAPE 42.35, HR@1 34.48, MSE 20-model 1위 0.498) 두 후보가 "VQ 이식 실험 진입 자격" 을 획득했다. v10 은 backbone 탐색 phase 를 종료하고, 4 모델 × 4 VQ 전략 이식 phase 로 전환한다.
  • 핵심 가설 (H10-1~5): 각 모델 아키텍처의 귀납 편향(inductive bias) 에 대응하는 VQ 구조를 이식했을 때, codebook collapse 없이 peak 특화 FL 성능 개선이 일어나며, "구조 정합(structural match) 이 비정합보다 PAPE 를 낮춘다" (H10-5).
  • 실험 설계: E1 NBEATSx + Decomposition CB (3 CB: trend/seasonal/generic), E2 NHITS + Frequency-Band CB (3 CB: low/mid/high-freq), E3 SCINet + Residual Quantization (3 level × M=32), E4 Crossformer + Product Quantization (4 sub-space × M=16). 공정 비교를 위해 단변량(univariate), UMass Smart Home 100 가구, Train/Cold 50/50 split, seed=42 단일 로 통일.
  • 계승: v6 R1b peak-weighted loss α=2.0, v8/ADR-008 Memory Alignment γ=0.95/δ=0.7 (collapse 시 γ=0.8 rollback), v9-06 EpochMLflowCallback 강제 (CLAUDE.md 규약).
  • 폐기: B0/B1/B2/B3 신규 재학습 전면 스킵 (v9-01/v9-06 recap 인용만). Ablation (Cold unfreeze, 3-seed 확장, ETSformer) 은 결과 관찰 후 addendum 의사결정 대기.
  • 성공 기준: v9-05/06 Strict (PAPE ≤ 43 AND HR@1 ≥ 37) 유지. Watch 는 재정의 필요 (§10 경고). H10-5 통계적 근거는 단일 seed 한계로 약함 (§11 R3), 3-seed 확장 트리거 명시.
  • 실행 방식: engineer 순차 구현 → 본 실험 subprocess 4 병렬 launch (GPU OOM 시 순차 fallback) → exp-expert 4 병렬 dispatch 로 E1-E4 결과 수집.

v9-06 Baseline Extension 2 Results — NF MLP 3종 + TSLib 4종 (ETSformer SKIP)

Source: report/version9/exp-expert/v9-06_baseline_ext_2_results.md

v9-06 Baseline Extension 2 결과 보고서 — NF MLP 3종 + TSLib 4종

0. Executive Summary

v9-06 은 v9-05 (NF Transformer 3종 FAIL) 의 extension 으로, (a) Track A — NeuralForecast MLP 계열 3종 (NBEATSx / TSMixer / TiDE) 과 (b) Track B — TSLib 4종 (SCINet / ETSformer / Pyraformer / Crossformer) 을 EC50 5가구 × 3-seed 독립 학습 조건에서 평가했다. ETSformer 는 TSLib 소스 버그 (CUDA device mismatch) 로 smoke 단계에서 SKIP, 본 실행은 6 모델 로 진행. 본 실행은 완료 상태이며, 본 보고서는 집계·분석만 수행 (재학습 없음).

Watch 기준 정의 변경 경고 (critic Major 1): v9-05 설계서 line 48 의 Watch 는 (PAPE ≤ 43 OR HR@1 ≥ 37) (단일축 OR), v9-06 설계서 §6.1 의 Watch 는 (PAPE ≤ 46 AND HR@1 ≥ 30) (양축 AND, 개별 임계 완화). 두 정의 모두 표시·병기 판정한다 (§4.1.1).

핵심 판정:

v9-06 Baseline Extension 2 — NF MLP 계열 + TSLib 4종 확장 설계

Source: report/version9/lab-leader/v9-06_baseline_extension_2.md

v9-06 Baseline Extension 2 — NF MLP 계열 + TSLib 4종 확장

0. 범위 고지

본 설계는 v9-05 (NF Transformer 3종 FAIL) extension 이다. v9-05 결과 (H9-5a FAIL, PAPE 52–53, HR@1 15–27) 분석에서 decomposition + attention 계열의 peak smoothing 가설이 도출됐고, 본 phase 는 (a) N-HiTS 계열 MLP 구조 (NBEATSx/TSMixer/TiDE) 와 (b) TSLib hierarchical/attention variant 4종 을 동일 프로토콜로 평가해 VQ-친화 backbone 후보를 재탐색한다. 사용자가 확정한 Track A/B 모델·가설·gating·P1 강제사항을 준수하며, 추가 ablation/확장은 설계하지 않는다.


1. 목적 및 가설

v9-06 Baseline Extension 2 — Phase 종합 요약

Source: report/version9/reporter/v9-06_baseline_ext_2_summary.md

v9-06 Baseline Extension 2 — Phase 종합 요약 보고서

0. Executive Summary

  • H9-6a Strict FAIL — Track A (NBEATSx/TSMixer/TiDE) + Track B (SCINet/Pyraformer/Crossformer) 6 모델 모두 PAPE ≤ 43 AND HR@1 ≥ 37 양축 gating 미충족. ETSformer 는 TSLib 소스 CUDA device mismatch 로 SKIP (분모 6).
  • Watch 판정은 정의 종속적 — v9-06 설계 Watch (AND, PAPE ≤ 46 AND HR@1 ≥ 30) 기준 SCINet 단독 PASS (PAPE 42.35 / HR@1 34.48). v9-05 설계 Watch (OR, PAPE ≤ 43 또는 HR@1 ≥ 37) 재판정 시 SCINet (PAPE 단일축) + NBEATSx (PAPE 단일축) 2종 PASS. SCINet 은 두 정의 모두 PASS 하여 robust, NBEATSx 는 v9-05 OR 기준에서만 PASS.
  • NBEATSx PAPE 34.58 은 20-모델 중 점추정 1위이나 95% CI [30.71, 38.46] 이 R1b (37.36) 와 N-HiTS (39.26) 을 모두 포함 — 1-sample t-test p ≈ 0.15 (n=15). R1b / N-HiTS 대체·갱신 주장은 통계적으로 불가. "실무 가치 있는 baseline" 수준으로 제한.
  • VQ 후보 2종 잠정 선별 (통계 겸손 톤): SCINet (Watch PASS, MSE 1위 0.498, SCI-Block interact 단계 VQ 삽입 후보) + NBEATSx (PAPE 점추정 1위, basis-expansion theta space VQ 매핑). 두 후보 모두 "VQ backbone 확정"이 아닌 "VQ 삽입 실험 진입 자격 최초 획득" 수준.
  • v9-05 Critical C1 재발 없음 — Track A EpochMLflowCallback + Track B raw loop mlflow.log_metric(step=epoch) 으로 per-epoch 로깅 6 모델 전수 검증 완료. CLAUDE.md 규약 충족.
  • Wall-clock 71.0분 (설계 예산 2-3h 의 59%). Track A NF 3종 모두 max_steps=500 한계 도달, early_stop 미 trigger → 수렴 여부 미확인 (P3 후속 sweep 권고).
  • 사용자 결정 필요 사항 4건: (1) SCINet + NBEATSx VQ 이식 실험 착수 여부·우선순위, (2) ETSformer TSLib 1-line 패치 재시도, (3) Track A max_steps=1000 재실험, (4) Watch 정의 표준화 (v9-05 OR vs v9-06 AND).

v9-05 Baseline Extension 적대적 검토 보고서

Source: report/version9/exp-critic/v9-05_baseline_ext_critic.md

v9-05 Baseline Extension — 적대적 검토

0. 종합 판정

Revision-Required.

FAIL 판정 자체는 robust하나, 보고서가 (1) MLflow per-step 로깅 규약 위반(Training loss 전량 미로깅, CLAUDE.md 강제 사항) 을 누락 없음 으로 기술, (2) FEDformer×Apt51 outlier 해석이 post-hoc cherry-picking 구조, (3) Wall-clock 1.15× 해석이 "빠르다" 로 치환되어 R1 완화 결론에 무리, (4) MLflow 정리 주장의 실제 상태 기술에 모호성 (tombstone 3 vs 2.2 문장에서 "3건"이라 썼으나 실제 2건은 초기 시도 중복 + 1건은 RUNNING 고아 — 소분류 기술은 정확하나 "이미 목표 상태" 주장이 절차적 공백을 숨김) 의 4가지를 반드시 수정해야 한다. 추가로 v9-01 수치 인용의 seed 비대칭은 보고서가 §8.2 한계 항목에서 명시적으로 기록했으나, §4 표와 §4.1 순위 해석에서는 여전히 공정하지 않은 비교를 주장 근거로 끌어다 쓰고 있어 §4.1 해석 문구 수정이 필요하다.

VQ 후보 부재 결론(§6)과 "사용자 결정에 위임" 프레이밍은 적절하다. FAIL 판정에 대한 상대우위 해석(§5.2)은 단일 가구 강점을 방법론적 주장 근거로 사용하지 않는다는 자기-경계가 올바르게 존재한다.

v9-05 Baseline Extension Results — NF 3종 (Autoformer/Informer/FEDformer)

Source: report/version9/exp-expert/v9-05_baseline_ext_results.md

Revision Log

Revision 1 (2026-04-24) — exp-critic Revision-Required 반영

  • Critical C1 (MLflow per-epoch 로깅 전량 누락): §2 최상단에 2.0 MLflow 로깅 규약 위반 고지 소절 신설. CLAUDE.md MLflow 전면 로깅 규약 위반 사실, 원인(Lightning callback 부착 부재), 파급 범위(수렴 해석 주장 근거 약화), FAIL 판정 자체는 test metric 만으로 robust 함을 분리 강조. §8 에 P1 commitment ("다음 phase 스크립트에서 Lightning on_train_epoch_end callback 필수") 기록.
  • Critical C2 (§8.2 한계 셀프-인정 완결): §8.2 "한계" 항목 최상단에 "Per-epoch train/val loss 미로깅 — 수렴 판별 불가" 를 #1 로 추가. 기존 5개 항목은 #2–#6 으로 재번호.
  • Major M1 (FEDformer×Apt51 post-hoc cherry-picking 교정): §5.2 말미 "주기성 가구 × Fourier attention 정합" 해석 삭제. Apt51 Chronos HR@1=69.04 / B1 HR@1=69.95 대비 FEDformer 41.90 이 −27%p 격차임을 명시. "경쟁력" 어휘 제거 → "단일 가구 임계 근접, 사후 가설(post-hoc speculation)" 로 재기술. §8.1 관찰 2 동일 처리.
  • Major M2 (Wall-clock 1.15× "빠르다" 치환 제거): §7.2 "R1 완화" 결론 재기술. "빠르다/효율적" 해석 철회, "설계 예산 초과 없음" 으로 한정. Seed 간 wall-clock std 극소 (FEDformer 0.6s) 가 max_steps=500 한계 도달 신호일 가능성 명시. §8.1 관찰 3 "Informer distil 효과가 학습 시간에서만 유효" 삭제 → "early_stop vs max_steps 도달 판별 불가 (로깅 누락)" 로 축소.
  • Major M3 (seed 비대칭 보조 표 승격): §4 표에 seed column 추가. §4.2 신규 "seed=42 단일 보조 비교 테이블" 신설 — Autoformer 54.31 / Informer 52.17 / FEDformer 52.16 PAPE 로 재계산. 순위 robust 함 확인.
  • Major M4 (§2.2 MLflow 정리 "이미 목표 상태" 추측 제거): "orchestrator 또는 직전 세션" 수동태 기술 제거. "본 세션 진입 시점에 이미 deleted lifecycle 이었으며, 전환 주체·시점 확인 불가 (MLflow 파일스토어에 주체 감사 없음). 현재 active 46 runs 는 목표 구성과 일치" 로 교체. deleted 3건 절대 start_time/end_time 을 §2.2 표에 추가.
  • Minor m1–m5: §9 산출물 인덱스에 summary_smoke.csv 추가 + §1.1 에 smoke 결과 1줄. §1.1 seed 목록 뒤에 v9-02 설계 사전 등록 주석. §8.1 관찰 4 "MovingAvg smoothing" 을 "가설 — ablation 미수행" 으로 한정. §4 NHITS row 근거 MLflow 확인 주석. §1.1 에 v9-01 "predict_len=1h" 오기 정정 주석.
  • 재실험 없음 / 기존 결론 불변: H9-5a FAIL 판정, VQ 후보 부재, FEDformer 3종 내 상대 우위, Apt-level Pass 0 결론은 그대로 유지. 이번 revision 은 보고서 서술의 robustness·자기-인식 보강에 한정.

v9-05 Baseline Extension — VQ-적용 대상 발굴용 TS 예측 베이스라인 확장 설계

Source: report/version9/lab-leader/v9-05_baseline_extension.md

v9-05: Baseline Extension — VQ 궁합 backbone 탐색용 TS 예측 모델 확장

1. 목적 및 가설

1.1 배경 · 문제 설정

v6–v9 전체 phase 동안 DLinear 기반 FL+VQ 결합(ADR-009, archive)이 codebook utilization 4% 수준의 near-collapse 로 구조적 실패를 기록했고, v9 Stage 2 (Chronos-Bolt LoRA, v9-04 §2.3) 역시 PAPE boundary Watch (44.953 ± 0.054%) 로 R1b (PAPE 37.36%) 대체에 실패했다. v10 이후 track 의 VQ 재시도를 위해서는 DLinear 를 대체할 VQ-친화적 backbone 후보 를 먼저 확보해야 한다.

본 실험은 VQ 이식 전 단계의 순수 예측 성능 벤치마크 로 한정한다. VQ 결합·FL·KD 는 본 설계 범위 밖이다.

v9-05 Baseline Extension — Phase 종합 요약

Source: report/version9/reporter/v9-05_baseline_ext_summary.md

v9-05 Baseline Extension — Phase 종합 요약

0. Executive Summary

  • H9-5a 판정: FAIL. NeuralForecast 3종 (Autoformer / Informer / FEDformer) 모두 5-apt × 3-seed 평균 기준 PAPE ≤ 43% AND HR@1 ≥ 37% 양축 게이팅을 미충족. 3종 중 상대 최선은 FEDformer (PAPE 52.04, HR@1 27.05, MSE 0.600) 이나 gating 절대 기준에서 각각 −9.04%p / −9.95%p 부족.
  • H9-5b (VQ 후보 존재) 자동 미충족. v10 이후 VQ 재시도를 위한 "DLinear 대체 backbone 후보"는 본 phase 실행 범위(NF 1차 3종) 에서 확보되지 않음.
  • FEDformer × Apt51 단일 가구 HR@1 = 41.90% — NF 3종 내 유일한 HR@1 ≥ 37 임계 초과 조합이나, 동일 가구의 Chronos HR@1=69.04 / B1 HR@1=69.95 대비 −27%p 격차이므로 가구 learnability 신호로 해석. 사전 등록되지 않은 사후 가설 (post-hoc speculation) 로만 기록.
  • Wall-clock: 설계 예산(2–3h) 초과 없음. 전체 45 run 53.8분. 단 per-epoch loss 로깅 부재로 수렴 도달 여부 (early_stop vs max_steps 한계) 는 판별 불가.
  • 사용자 결정 필요 사항 3건 (§8): (1) TSLib 2차 착수 여부, (2) 다음 phase 방향 (A/B/C 중 선택), (3) 후속 phase P1 강제사항 (Lightning callback per-epoch 로깅).

v10-01 FL Aspect — Server-Centric Evaluation Phase Opening

Source: report/version10/lab-leader/v10-01_fl_aspect.md

v10-01: Server-Centric FL Evaluation — Phase Opening

0. Executive Summary

v6~v9 phase는 전부 "seen client × personalized local model" 축 위에서 PAPE / HR / MSE를 측정했다. 이는 FL의 전체 파이프라인 Local 정보 수집 → Server aggregate → 분배 중 마지막 두 단계가 만들어낸 서버 모델 자체의 가치를 정면으로 측정하지 못한 구조적 결함을 남긴다.

본 phase(v10)는 FL 연구의 본질적 질문으로 평가 축을 재정렬한다:

"우리의 Local 기여를 aggregate한 서버 모델이 (a) 참여 가구 personalization, (b) unseen 가구 zero/few-shot 전이, (c) communication round 효율의 세 축에서 각각 어디에 있으며, Chronos-Bolt 급 외부 대형 사전학습 서버와 비교해 어떤 보완/우위를 가지는가?"

v9 Phase Summary — FM Fine-tuning × HR 민감도

Source: report/version9/lab-leader/v9-04_phase_summary.md

v9 Phase Summary

0. Executive Summary

v9는 v6 Exp6의 관찰 — Chronos-Bolt zero-shot의 HR 우위(37.7%) ↔ FeDPM R1b의 PAPE 우위(38.4%) — 를 연구 동기로 삼아 (1) HR 허용 범위를 완화하면 FM 우위가 유지되는가 (Stage 1), (2) Chronos-Bolt를 LoRA로 fine-tune하면 PAPE까지 개선되는가 (Stage 2)를 검증한 phase다.

가설 내용 판정
H9-1 HR tol 완화 시 FM의 HR 우위가 유지/증폭 FAIL (B1이 tol=2에서 Chronos 추월)
H9-2 (MSE/HR) LoRA fine-tune 후 MSE/HR 개선 PASS (MSE −4.7%, HR@1 +1.25%p, 3-seed std 0.04)
H9-2 (PAPE) LoRA fine-tune 후 PAPE 개선 Watch / boundary Fail (3-seed 44.953 ± 0.054)
H9-1 부산물 Peak-Weighted Loss β 의존성 입증 PASS (β=2 vs β=100에서 PAPE +5.66%p 악화)