콘텐츠로 이동

v10 카테고리

v10 버전 전체 12건. 섹션별로 필터링하거나, 아래 자동 생성된 포스트 목록(날짜 역순)을 확인하세요.

섹션 필터

v10 전체 (12) exp-expert (5) exp-critic (3) reporter (1) lab-leader (3)

v10 Phase 종합 보고서 — VQ Multi-Model Ablation Negative Result

Source: report/version10/reporter/v10-05_phase_summary.md

v10 Phase 종합 보고서: VQ Multi-Model Ablation의 Negative Result

0. Executive Summary

v10 phase는 ADR-010에 의거하여 4종 (모델 × VQ 구조) 조합 — NBEATSx+DecompCB (E1), NHITS+FreqBand (E2), SCINet+RQ (E3), Crossformer+PQ (E4) — 의 정합성을 평가하기 위해 설계되었다. 50가구 in-fed split (7:1:2)에서 19개 모델 (Phase1 7 Local baseline + B0~B4 5 baseline + 4 VQ + 4 VQ_simple = 20 중 가용 19) 의 동시 비교를 수행한 결과, 다음 4가지가 확인되었다:

  1. VQ 4종 모두 baseline FedAvg 대비 PAPE 점추정 악화 (E1 +8.63, E2 +40.31, E4 +25.78; E3는 noVQ baseline 부재).
  2. Codebook collapse가 4 모델 모두에서 동시 발생 (E1 9.14%, E2 5–7%, E3 26.54%, E4 sub_3/4 12–14%) — 모델 변경만으로는 V4/V5에서 관찰된 collapse 회피 불가능.
  3. ADR-010의 핵심 가설 H10-1~5 모두 FAIL 또는 검정 불가:
  4. H10-1 (E2 high-freq peak): broad-based collapse로 강한 FAIL
  5. H10-2 (E1 trend anchor): drift metric 미로깅 → 검정 불가 → Watch (사후성 정의 비고)
  6. H10-3 (E3 RQ collapse 회피): util 26.54% << 50% threshold → FAIL
  7. H10-4 (E4 PQ cold-start): cold-start 평가 미실행 → NOT_TESTED
  8. H10-5 (정합성): seed=42 단일 → 통계 검정 불가
  9. Simple ablation (C/M 모두 제거) 6변수 묶음이라 component 분리 불가. E2_simple은 PAPE만 보면 본판 대비 개선되었으나 다축 검증 (MSE 1.40, std_ratio 0.066, corr -0.003, best_round=0)으로 "더 극단적 단조 상수 collapse" 로 판정.

v10-04 E1 NBEATSx + DecompCB Adversarial Critique

Source: report/version10/exp-critic/v10-04_E1_NBEATSx_DecompCB_critique.md

v10-04 E1 NBEATSx + DecompCB — Adversarial Critique

0. 종합 판정

CONDITIONAL PASS — 보고서는 단일 seed 한계와 복수 측정 한계를 정직하게 자기 인정했고, 점추정 사실 기록 원칙(memory v9_06 lessons)을 대체로 준수했다. 그러나 (a) E1_simple ablation 결과가 expert 보고서에 통합되지 않은 critical omission, (b) "trend CB anchor 부재" 결론을 trend CB의 inherent sparsity 대안 가설로 충분히 검토하지 않은 over-claim, (c) E1_simple과 E1 main의 차이를 "C1+C2+C3+M1 주입사항"이라는 단일 부호로 압축하는 사용자 컨텍스트의 검증 미흡, (d) 이 정보들 없이는 "Watch → Fail 경향" 판정이 견고하지 않음 — 이 4건이 본 보고서가 reporter 단계로 진입하기 전 필수 수정 사항이다.

본 critique는 보고서가 "VQ가 잠재력 있다" 변호를 하지 않은 점을 인정하나, 동시에 반대 방향의 over-claim ("anchor 부재") 도 단일 seed 점추정에서는 통계 비유의의 정직성과 일치하지 않음을 지적한다.


v10-04 E2 NHITS + FreqBand — 적대적 검토

Source: report/version10/exp-critic/v10-04_E2_NHITS_FreqBand_critique.md

v10-04 E2 NHITS + FreqBandCB — 적대적 검토 (exp-critic)

0. Executive Summary

  • 종합 판정: CONDITIONAL PASS. expert 의 주요 발견 (평탄화 collapse, +40 PAPE 의 4 후보, H10-1 강한 기각) 은 MLflow run 3d377754 의 npy/메트릭으로 직접 재계산하여 수치적으로 정확함을 확인. 그러나 (a) plateau vs divergence 통계, (b) per-household 분산 disclosure, (c) E2_simple ablation 결과 통합 미반영, (d) "e2_y_pred.npy" 의 path 표기 오류 등 4 개 항목에서 보고서가 약하거나 사실관계가 일부 어긋난다.
  • expert 의 핵심 진단 (평탄화 collapse 가 +40 PAPE 의 단일 가장 큰 직접 원인) 은 유지. 다만 결론 (E2 drop, v11 재설계) 은 사용자가 본 critic 에 추가 컨텍스트로 제공한 E2_simple ablation (PAPE 68.35, MSE 1.40) 를 반영하지 못한 상태. simple 결과는 expert 의 4 후보 중 #2 (VQ_high×2) / #3 (γ=0.85 비대칭) 의 부분 기여를 지지하지만, simple 도 baseline B3=44.66 대비 +23.69 PAPE 악화이고, simple 의 std_ratio=0.066 (cf. 본 실행 0.61) 으로 평탄화가 더 심각. 즉 "VQ_high×2 와 γ=0.85 만 제거해도 평탄화는 사라지지 않으며, 오히려 다른 형태로 collapse 한다." → expert 의 "v11 STFT/wavelet 재설계" 권고는 여전히 유효, 단 "simple 로 돌아가면 회복" 이라는 약한 변호는 거부되어야 함.
  • 검증 결과 요약 표:
항목 expert 주장 critic 재계산 판정
y_pred std / y_true std 0.45 / 0.73 = 0.62 0.4464 / 0.7274 = 0.6137 PASS (정확)
peak_pred / peak_true 0.31 / 2.01 = 0.15 0.3102 / 2.0110 = 0.1543 PASS (정확)
corr(y_true, y_pred) 0.411 0.4113 PASS (정확)
평탄화 단일 점추정 50가구 평균 per-household ratio mean=0.147, std=0.232, IQR=[-0.002, 0.349], 50가구 중 24개 ratio<0.20 CONCERN — outlier 의존이 아닌 broad-based collapse, 그러나 가구별 분산 본문 미공개
Apt51 outlier 영향 미언급 per-household ratio std 0.23 (본 실행 데이터), Apt51 집계 자체 검증 불가 (test set 가구 mapping 미보존) CONCERN — 가구 ID 매핑 보존 부재
best_round=19 plateau round 10-19 평균 339.4 vs 20-29 평균 333.5 (5.9, 1.7%) 335.74 vs 335.07 (-0.67, -0.20%) REJECT (수치 오류) — 그러나 plateau 결론 자체는 더 강하게 지지
Welch t-test (10-19 vs 20-29) 미실시 t=0.13, p=0.90; Mann-Whitney p=0.91 NEW — plateau 통계적 강하게 지지
MSE 함정 일반화 "MSE-only 보고 금지" E1 (PAPE 55.01, MSE 0.81) / E2 (84.97/0.48) / E3 (49.67, MSE 미확인) — E2 의 평탄화-MSE 함정은 E2 unique 패턴 (다른 모델은 MSE 도 무너짐) CONCERN — 권고는 정확하나 "어느 모델이 함정인가" 의 판별식 부재
H10-1 강한 FAIL high CB util 6.47% / PAPE 84.97 round-mean util high=0.0654 (round 0-29), best round=0.0588 → 6.5% PASS (정확)
cb_util_{band}_{peak\|nonpeak} 분리 로깅 미구현 (engineer 누락) metrics 폴더에 codebook_utilization_{name} 만 존재, peak/nonpeak split 부재 확인 PASS (사실) — 단 expert 가 우회 분석 (peak window 별도 계산) 도 시도하지 않음
E2_simple ablation 통합 보고서 작성 시점 미확보 simple PAPE 68.35, MSE 1.40, std_ratio 0.066, best_round=0 MISSING — 보고서 revision 1 에서 통합 필수

v10-04 E3 SCINet+RQ 적대적 검토

Source: report/version10/exp-critic/v10-04_E3_SCINet_RQ_critique.md

v10-04: E3 SCINet+RQ 보고서 적대적 검토

본 검토는 expert 보고서가 round 16 시점 잠정 작성된 후, round 30 종료 (FINISHED, end_time 2026-04-25 17:17:14 KST)가 확인된 시점에서 수행한다. 잠정 결과로 작성한 정성적 framing 일부는 final 결과로 갱신해야 하며, 일부 인과 주장은 ablation 설계 결함 때문에 약화되어야 한다.


0. Executive Summary

항목 판정
잠정 보고 작성 자체 (round 16 시점) PASS — Risk A1–A7 사전 disclosure 양호, plateau 외삽이 final과 부합
H10-3 conjunctive 적용 (util AND mse) PASSOR/AND 표기 혼선 1건 외에는 정확
L1 dead 3원인 교집합 주장 CONCERN — A·B·C가 개별로 입증되지 않은 채 "교집합" 주장
restart_dead_codes() 미구현 발견 PASS — 코드 검증 일치, 그러나 영향 추정 부재
β=0.375 효과 inconclusive 자기인정 PASS — H_β / H_cascade confound 정직히 명시
simple ablation 해석 ("C1 K-means++ + C2 dead restart 효과") REJECT — C2는 E3/E3_simple 양쪽 모두 작동 안 함, 이를 효과로 귀속 불가
HR@1 baseline 우위 주장 (사용자 컨텍스트) REJECT 근거 — B3=17.14, B4=18.57은 v10 FL no-VQ baseline이 아니며 Phase1 NF Local 베이스라인 수치
"wait 권고" 사후 평가 PASS — 추가 14 round에서 best 갱신 0건 (round 4 plateau 확정), 그러나 산출물 (a) test 메트릭 (b) artifact 가치 회수됨
"v10 4 모델 중 상대 안정" 강조 CONCERN — relative ranking을 H10-3 partial pass처럼 읽힐 위험 (보고서가 §3.4에서 한 번 명시했지만 §0/§9에서 반복 강조)
잠정→final 갱신 필요성 REQUIRED — §10 갱신 사항 미반영 상태

v10-04 E1 NBEATSx + DecompCB Single-Run Analysis

Source: report/version10/exp-expert/v10-04_E1_NBEATSx_DecompCB_analysis.md

v10-04 E1 NBEATSx + DecompCB Single-Run Analysis (revision 1)

0. 한 줄 결론

E1은 단일 seed=42 점추정에서 test_pape=55.01, HR@1=15.71 로 동일 backbone no-VQ baseline B2(46.38 / 17.14) 대비 +8.63 PAPE / -1.43 HR@1 격차 관찰, Local no-FL Phase1 NBEATSx(33.01 / 19.58) 대비 +22.00 PAPE / -3.87 HR@1 격차. 이 격차들이 systematic 한지 단순 seed 변동 (v9-06 NBEATSx CI 폭 ≈ 7.75%p, R5 reference) 안인지 단일 seed 점추정으로는 분리 불가 — 3-seed 확장 후 재판정 필요. H10-2 (trend block basis expansion이 alignment anchor)는 본 run에서 검정 불가 — falsification 메트릭(trend/generic θ-drift L2 Wilcoxon) 미로깅 + trend CB 자체가 inherent sparse 표현 공간(n_polynomials=3)이라 utilization-based 간접 추론도 결정적이지 않음. 통신량은 -90.6% (B2 262,736 → 24,576 bytes/round) 절감 사실 확인. 본 보고서는 점추정 한정 사실 만 기술하며, 본 revision 1 cycle 에서 E1_simple ablation (run_id 8f344fa9) 비교를 §3.5 로 통합 — 그 결과 "C1+C2+C3+M1 주입사항이 effective"라는 narrative 는 6변수 동시 변경 묶음으로 격하되었다.


1. 비교 baseline 정렬 (단일 seed=42, split v10-7102, 50가구 동일)

v10-04 E2 NHITS + Frequency-Band Codebook — 단독 분석

Source: report/version10/exp-expert/v10-04_E2_NHITS_FreqBand_analysis.md

v10-04: E2 NHITS + Frequency-Band Codebook — 단독 분석

0. Executive Summary

  • 결과: E2 (MinimalNHITS + FreqBandCB(low/mid/high) × M=32 × d=64, FedAvg + per-band Memory Alignment γ=0.98/0.95/0.85, peak-α=2.0, VQ_high_loss × 2)는 30 round 학습 후 test_pape=84.97%, test_hr1=13.22%, test_hr2=18.41%, test_mse=0.4816 로 종료. v10 VQ 4종 중 PAPE 워스트 (E1=55.01, E4=67.59, E2=84.97).
  • B3 NHITS noVQ 대비 +40.31 PAPE, v9-01 NHITS recap 39.26 대비 +45.71 PAPE, B0 DLinear Local 42.51 대비 +42.46 PAPE. v10 frequency-band 이식이 동일 backbone 무-VQ 대비 일관되게 악화.
  • H10-1 판정 = FAIL (강한 형태). 검증 기준 두 축 — PAPE < B0=42.51 그리고 high-freq CB util > 50% (설계서 §1.2) — 모두 위반. high-freq CB 평균 util 6.47%, peak window vs non-peak window 분리 로깅 자체가 누락(설계서 §9.2 명세 미구현)이라 가설의 정성 증거조차 수집 불가.
  • 3-band 동시 collapse: round 0 부터 low/mid/high 모두 util 5–6% 출발. 30 round 동안 low가 11.8%까지 회복, mid 10.6%, high는 6.5% 이하 유지(오히려 r=18 이후 더 하락). collapse alert가 매 round 3 band 모두에서 트리거.
  • best_round=19, best_val_pape=307.76% (z-score scale validation 기준) — round 20–30 에서 추가 악화. 학습 발산 패턴.
  • 결정적 발견 (smoking gun): 예측 분포가 평탄화 collapse. y_pred 평균 0.25 vs y_true 평균 0.39, peak_pred 평균 0.31 vs peak_true 평균 2.01 [정의 (A) window-wise max 후 평균; 정의 (B) pred_at_argmax 12.5%, 정의 (C) overall max 32.6%로도 평탄화 일관 확인 §3.3.1] — 모델이 peak 의 약 15% 진폭만 예측. std 비율 0.45/0.73=0.61 (per-household ratio mean=0.27, # ratio<0.20 = 24/50, broad-based collapse §3.3.2). y/ŷ correlation 0.411. 즉 "peak-α=2.0 + VQ_high×2" 가중이 작동했음에도 quantization noise 와 3-stack additive 합성이 평탄한 평균 회귀 예측을 강화.
  • E2_simple ablation (revision 1 통합): weighting 균일 + K-means++ 비활성 변형에서 PAPE 68.35 (본 84.97 대비 -16.62) 로 표면 개선처럼 보이나, MSE 1.40 (본 0.48 대비 +191% 악화) / std_ratio 0.066 (1/10 더 평탄) / corr -0.003 / best_round=0 으로 더 극단적 단조 상수 출력 collapse 임이 확인. PAPE 개선은 분모-분자 비율에 단조 상수가 우연히 favorable 했기 때문. 4 후보 (3-stack additive / VQ_high×2 / γ=0.85 / K-means++ cliff) 중 어느 것도 simple 로 분리되지 않음. "E2 drop, v11 STFT/wavelet 재설계" 결론은 simple 결과로 약화되지 않고 강화 (§3.3.4).
  • 통신량 trade-off: bytes_per_round 24,576 (B3 NHITS noVQ 90,912 대비 −73.0%) — 그러나 PAPE +40.31. 통신 절감 대비 성능 손실 비율이 v10 4 E* 중 가장 비현실적.
  • 다음 단계 권고: E2 drop. v11 에서 (a) FreqBandCB 를 명시적 STFT/wavelet 기반 frequency 분해로 재설계, (b) NHITS 의 hierarchical additive 합성과 VQ noise 의 상호작용 회피 (예: residual quantization, 또는 마지막 stack 만 VQ 이식), (c) cb_util_{band}_{peak|nonpeak} 로깅 의무화 — 가설 검증의 정성 증거 수집 자체가 불가능했던 phase 설계 결함 시정.

v10-04 E3 SCINet+RQ 단독 분석 (final / round 30 완료, revision 1)

Source: report/version10/exp-expert/v10-04_E3_SCINet_RQ_analysis.md

v10-04: E3 SCINet + Residual Quantization — Final 분석 (revision 1)

본 보고서는 E3 학습 종료 (round 30 완료, FINISHED) 시점의 최종 판단이다. 모든 수치는 round 30 종료 후 MLflow 기록 기준 점추정이며, seed=42 단일이다. exp-critic CONDITIONAL 판정에 따른 revision 1 cycle 반영본 — 핵심 수정 사항: (1) 잠정 → final 결과 갱신, (2) "C2 dead restart 효과" 가짜 인과 제거, (3) HR@1 baseline 출처 (Phase1 NF Local) 정정, (4) L1 dead 3원인 교집합 약화, (5) v9-06 SCINet 대비 후퇴 정량화.


v10-04 E4 Crossformer + Product Quantization — 단독 분석 (revision 1)

Source: report/version10/exp-expert/v10-04_E4_Crossformer_PQ_analysis_v2.md

v10-04 E4 Crossformer + PQ — 단독 분석 (revision 1)

본 보고서는 v10 phase 의 E4 Crossformer + Product Quantization (4 sub × M=16, d_sub=16) 단일 run 결과 분석이다. 담당 가설은 H10-4 (cold-start 50 가구에서 Crossformer+PQ 가 4 모델 중 PAPE 1위) 이나, cold-start 평가가 미실행 (Task #19 보류) 이므로 H10-4 는 검증 보류 (NOT TESTED) 한다. 점추정만 보고하며, seed=42 단일이므로 통계적 유의 주장은 일절 하지 않는다 (v9-06 Major 2 교훈, R3 정책).

Revision 1 요약 (critic CONDITIONAL PASS 대응)

# Critic 지적 본 revision 처리 위치
Critical §5.3 sub_4 peak→dead 가설을 E4_simple ablation 이 정반대로 falsify §5.3 전면 재서술 (sub_4 비대칭 주입은 dead-zone 원인이 아니라 HR@1 유지에 essential) + §12.3-(4) commit×0.5 약화 권고 삭제 §5.3, §12.3
Major 1 v9-06 비교에서 d_model 8× 축소 (64 vs 512) 미disclose §8.2 비교표에 d_model / e_layers 차이 명시 + 정량화 시도 §8.2
Major 2 best_val < test 음의 gap 이 main+simple 양쪽에서 동일 방향 → split systemic 가능성 §9 (구 §6.2 학습 dynamics 진단 확장) + §10.5 신설 §9, §10.5
Major 3 HR@2 / HR@1 ratio 분석 부재 §3.3 신설 (E4=1.54 가 4 모델 최저 → peak 영역 specifically poor) §3.3
Major 4 seed=7 run 인지 + sanity-check 미수행 disclose §10.1 보강 (seed=7 status=KILLED 명시) §10.1
Major 5 §12.3-(1) cold-start ROI 권고가 H10-4 정의된 step 을 sidestep §12.3-(1) 정정 (cold-start 는 H10-4 검증 필수 step) §12.3

v10-04 E4 Crossformer + Product Quantization — 단독 분석

Source: report/version10/exp-expert/v10-04_E4_Crossformer_PQ_analysis.md

v10-04 E4 Crossformer + PQ — 단독 분석

본 보고서는 v10 phase 의 E4 Crossformer + Product Quantization (4 sub × M=16, d_sub=16) 단일 run 결과 분석이다. 담당 가설은 H10-4 (cold-start 50 가구에서 Crossformer+PQ 가 4 모델 중 PAPE 1위) 이나, cold-start 평가가 미실행 (Task #19 보류) 이므로 H10-4 는 검증 보류 (NOT TESTED) 한다. 점추정만 보고하며, seed=42 단일이므로 통계적 유의 주장은 일절 하지 않는다 (v9-06 Major 2 교훈, R3 정책).


0. Executive Summary

v10 Interim Report — Split 정합성 수정 + 부분 결과

Source: report/version10/lab-leader/v10-03_interim_report.md

v10 Interim Report

0. Executive Summary

v10 phase 본 실험 진행 중 train/val/test split 비율 비일관성 발견. 9개 모델이 80/10/10, 3개 모델이 70/10/20으로 학습되어 v10 내부 비교 + v9 baseline 인용 모두 신뢰성 훼손. 7:1:2로 통일 결정 (v6/v9 계승).

기존 80/10/10 결과는 v10 내부 상대 비교 한정 valid — split 통일 후 전체 재학습 예정. 본 보고서는 split 수정 결정 + 잠정 결과 + baseline 구성 정리.

1. 핵심 발견