콘텐츠로 이동

2026

v9-03 Chronos-Bolt LoRA Fine-tuning Results — 적대적 검토

Source: report/version9/exp-critic/v9-03_chronos_lora_critic.md

v9-03 Chronos-Bolt LoRA 결과에 대한 적대적 검토

§0 종합 판정 — CONDITIONAL PASS (수정 요구)

보고서는 수치 자체의 정직성(§3.2 "PAPE 에서 LoRA 는 zero-shot 과 실질적으로 동일")한계 기술(§6.3) 을 일정 수준 갖추고 있다. 그러나 (a) 판정 레이블링(Watch / PARTIAL PASS)이 동일 보고서 내에서 비대칭적이고, (b) rank=4 vs rank=8 "동일" 결론을 단일 seed 근거로 일반화했으며, (c) 가구별 수렴 패턴 해석이 증거 없는 단정을 섞고 있고, (d) H9-2b "상보성" 서사와 Stage 3 진입 제안에 과도한 외삽이 포함되어 있다. 본 비판 보고서는 7개 이슈(Critical 2 / Major 4 / Minor 1)를 지적하고 번호 매긴 수정 요구 9건을 제시한다. 수정 후 reporter 넘기 가능.

판정 근거 요약: 논문 contribution(R1b 와 차별화되는 "MAPE–PAPE 동시 개선") 중 PAPE 축 primary claim 이 실측으로 기각됨(§3.2). 이것은 Stage 1 v9-01 §3.5에서 명시한 "Stage 2 primary observation" 이었다. Stage 2 의 primary gate 가 열리지 않았다는 사실 자체는 보고서가 정직하게 쓰고 있으나, 서사 구조(특히 §5, §8)는 이 실패를 "다음 단계로의 재도약 명분"으로 rationalize 하고 있어 abstract-first rollback absence 패턴(agent memory) 에 근접한다.


v9-03 Chronos-Bolt LoRA Fine-tuning Results (seed=42)

Source: report/version9/exp-expert/v9-03_chronos_lora_results.md

v9-03 Chronos-Bolt LoRA Fine-tuning Results (seed=42) — v2

Revision v2 note: critic 보고서 §1 이슈 7건 (Critical 2 + Major 4 + Minor 1) + §3 수정 요구 9건을 반영한 개정판. 변경 대응표는 §11 Revision Log 참조. 재실험 없이 기존 summary.csv / log 기반 재해석·재기술만 수행.

§0 요약 (Executive Summary)

본 보고서는 v9 Stage 2 — Chronos-Bolt-Small (47.7M) 백본에 LoRA adapter (rank ∈ {4, 8}, target={q, v}) 를 부착해 EC50 5가구에 대해 per-household fine-tuning 한 결과를 정리한다. seed=42 단일, 가구별 독립 학습 10회 (rank 2종 × 5가구).

공식 판정 (설계서 v9-02 §1.3, 단일 레이블화)

v9-02 Chronos-Bolt LoRA Fine-tuning 실험 설계

Source: report/version9/exp-designer/v9-02_chronos_lora_design.md

v9-02: Chronos-Bolt-Small LoRA Fine-tuning + FL/VQ 연관 설계

1. 목적 및 가설

1.1 핵심 연구 질문

Chronos-Bolt-Small (47.7M, T5 기반) 의 LoRA fine-tuning 이 EC50 5가구(Apt6/15/30/51/88) 데이터에서 zero-shot baseline 대비 피크 예측 성능을 유의하게 개선하는가? 그리고 이 구조가 v6 FL/VQ 자산(FeDPM, Peak-Weighted Loss, DLinear residual)과 유의미하게 결합 가능한가?

1.2 가설 (H9-2, H9-3)

v9-01 Stage 1 HR 민감도 재평가 + v6 Baseline Recap

Source: report/version9/reporter/v9-01_stage1_hr_sensitivity_recap.md

v9-01 Stage 1 — HR 민감도 재평가 + v6 Baseline Recap

§0 요약 (Executive Summary)

v9 phase Stage 1 의 목적은 세 가지였다: (1) H9-1 가설 검증 — v6 Exp6 에서 관찰된 FM (Chronos-Bolt, HR@tol=1 = 37.7%) 의 HR 우위가 허용범위를 ±30분(tol=1)에서 ±1h(tol=2)로 완화할 때 증폭되는지, (2) v6 13 baseline 재현성 확보 — v9 Stage 2 (Chronos LoRA) 비교군 고정, (3) Peak-Weighted Loss 순수 효과 분리 — P1(α=2, β=2) vs P1_MSE_eq(α=2, β=100) 대조로 β 의존성 검증.

결과: H9-1 은 FAIL. tol=1 에서 Chronos-Bolt 가 37.71%로 1위였으나 tol=2 로 완화하면 B1 (DLinear FedAvg) 이 49.39%로 역전한다. FM 계열의 hr_delta(9.96~10.85) 가 DLinear 계열(12.02~12.47) 보다 낮아, FM 의 HR 우위는 증폭이 아니라 약화된다. v6 baseline 은 R1b 포함 전 항목이 ±0.5~2.6%p 범위에서 재현되었으며, 재현 시 FedPM --beta 2.0 override 가 필수임을 확인했다. Peak-Weighted Loss 는 β=100 구간에서 peak weighting α=2 의 효과가 무력화되어 PAPE 가 +5.66%p 악화됨 (42.85 → 48.51) 을 실측으로 입증했다.

v9 Stage 2 (Chronos-Bolt LoRA fine-tuning) 는 설계·구현 준비 완료, exp-expert dispatch 대기 상태이다.

v7 Peak-Aware FL Clean Restart — 최종(Closure) 보고서

Source: report/version7/reporter/v7-final_최종보고서.md

v7 Peak-Aware FL Clean Restart — 최종(Closure) 보고서

본 보고서는 2026-04-19 ADR-007로 착수되어 2026-04-20 ADR-008로 공식 이양된 v7 phase 전체 궤적을 하나의 closure 문서로 정리한다. 중간 보고서(v7_stage0_stage05_interim_report.md, draft)가 Stage 0 + Stage 0.5까지를 다뤘고, 그 뒤 수행된 A3 발산 진단 ablation(A1/A2/A4/V1/V2/V3) 이 v8 전환의 직접 근거가 되었다. 본 최종본은 이 전 범위를 포괄하며, v7 관련 신규 보고서는 이후 작성되지 않는다.


§0 Executive Summary

0.1 비전문가용 한 문단 요약

v7은 발표자료 제출을 목표로 "peak-aware 연합학습이 baseline과 시계열 파운데이션 모델 대비 우수하다"는 초록을 숫자로 검증하기 위한 clean-restart phase였다. 결과는 조기 종결. Stage 0.5 smoke에서 핵심 cell A3("full proposed")가 3 seed 모두 학습 중 val loss가 오히려 증가하는 현상을 확인했고, 후속 진단 ablation 결과 VQ를 포함한 모든 cell(A2/A3/A4/V1~V3)이 B0 local baseline(PAPE 52.3)보다 악화되는 반면 VQ를 제거한 A1만이 PAPE 47.1로 baseline 수준에 근접했다. 원인은 peak-loss도 DLinear residual도 아니라 v7 runner가 FedPM의 VQ 기본 모듈만 import하고 서버 정렬(MemoryAlignmentServer)과 RESET 기법을 연결하지 않은 구현 결함으로 규명되었다. v7은 여기서 멈추고 ADR-008로 v8 VQ Methodology Rescue phase에 구현 결함 수정 책임을 이양했다. (v8은 그 뒤 2026-04-21에 별도 실패로 closure되었으며 본 보고서 범위 밖)

v8 VQ Rescue 실패 분석 + Option d 재설계안 adversarial review

Source: report/version8/exp-critic/v8_0420_failure_analysis_review.md

v8 실패 분석 adversarial review

종합 판정: FAIL (v9 Option d 경로). 보고서의 dominant cause 진단이 틀렸거나 정당화되지 않았으며, 그 오진이 Option d 선정의 핵심 근거이기 때문. 경쟁 ADR-009 (track-f) 가 같은 증거를 더 정합적으로 해석함.


요약

v8 보고서는 "v7 decoder capacity (≈35K) vs v6 Transformer decoder (≈270K) 격차"를 dominant 원인으로 지목하고 이를 근거로 Option d (shared linear adapter) 를 선정했다. 그러나 v6 decoder 는 Transformer 가 아니라 FC-MLP (XcodeYtimeDecoder(decoder_type='fc'), ≈957K params) 이며, 이 사실은 경쟁 ADR-009 (track-f) 가 이미 correct 했다. 따라서 §2 근거는 구조 misidentification 위에 쌓였고, §3 Option 비교의 "a/b/c 는 §2.1 1번(capacity)을 해결하지 못함" exclusionary 논리도 함께 무너진다. Option d 는 capacity 해결을 포기한 채 PAPE 45~47 목표로 downgrade 하는 결정인데, track-f 는 capacity 복원을 직접 시도하는 경로임을 §4 에서 전혀 다루지 않는다 (경쟁 ADR 존재 자체가 누락). Cycle 2 재제출 권고.

v8 VQ Rescue 실패 분석 + 재설계안 v2 (track-f 우선, Option d rollback)

Source: report/version8/exp-expert/v8_failure_root_cause_and_redesign_v2.md

v8 실패 분석 + 재설계안 v2

cycle 1 보고서(v8_failure_root_cause_and_redesign.md)는 critic FAIL 판정을 받았다. 핵심 치명 사유는 v6 decoder 구조를 Transformer 로 오인했고, 그 오진 위에서 경쟁 ADR-009 (track-f) 를 Option 집합에서 배제했다는 점이다. 본 v2 는 12 건 수정사항 (Critical 3 / Major 5 / Minor 4) 을 모두 반영하고, 결정을 track-f W1+W2 병렬 실행 + Option d 를 second rollback 으로 전환한다.


§0 상충 가설 — v2 정정

cycle 1 §0 원문 (요지)

"V4/V5 가 MemoryAlignmentServer 통합 후에도 실패했으므로 '구현 결함' 가설은 반증된다."

v8 VQ Methodology Rescue Phase — Closure 보고서

Source: report/version8/reporter/v8_0420_closure.md

v8 VQ Methodology Rescue — Closure Report

§0 요약 (Executive Summary)

v8 phase 는 실패로 공식 종결한다. MemoryAlignmentServer + RESET 2 기법을 v7 에 편입한 V4/V5 1-seed smoke 에서 PAPE 가 각각 56.51, 53.32 로 primary gate (<50) 를 통과하지 못했다. 후속 경로는 track-f (decoder capacity swap, ADR-009) 로 확정되었으며, cycle 1 에서 제안되었던 Option d (shared linear adapter, v9 adapter) 는 dominant 원인을 해결하지 못한다는 판단에 따라 docs/archive/decisions/ADR-009_v8_to_v9_vq_redesign_archived_2026-04-21.md 로 archive 되었다 (rollback 발동 시 참조 자료로만 보존). 쉬운 말로, "VQ 를 서버에서 정렬하면 v6 성능(PAPE 38)이 돌아오리라" 던 v8 가설은 기각되었고, 원인은 VQ 알고리즘이 아니라 v7 의 decoder 용량 자체가 너무 작았다는 쪽으로 무게중심이 이동했다.


§1 Pre-registered 성공 기준 vs 실제 결과

적대적 리뷰: 초록 방어 계획 (v6_0418_abstract_defense_plan.md)

Source: report/version6/exp-critic/v6_0418_defense_plan_adversarial_review.md

적대적 리뷰: 초록 방어 계획에 대한 reviewer 2 비판

종합 판정 (Reviewer 2 stance): REJECT for top-tier FL venues (ICML/NeurIPS/ICLR/AISTATS). Energy domain journal (IEEE TSG/Applied Energy)은 major revision 하에서 CONDITIONAL PASS. Workshop은 현 보강 완료 시 제출 가능.

이전 리뷰(v6_0418_fl_baseline_adversarial_review.md)에서 제기한 Critical 지적 4개 중 2개만 진짜로 해결 경로가 있고, 2개는 교묘하게 회피되었다. 더 심각하게, 이 방어 계획은 "초록은 고정, 실험은 그 초록을 방어하기 위해"라는 post-hoc rationalization 구조를 명시적으로 채택하고 있어, 과학적 방법론 관점에서 원천적 문제를 안고 있다.

본 리뷰는 방어 계획 각 절에 대해 reviewer 2 입장에서 반박하고, 추가로 발견한 결함을 열거한다.


적대적 리뷰: Exp6 FeDPM 최종 보고서의 FL 베이스라인 평가

Source: report/version6/exp-critic/v6_0418_fl_baseline_adversarial_review.md

적대적 리뷰: Exp6 FeDPM 최종 보고서 (FL 베이스라인 평가 중심)

종합 판정 (Reviewer 2 stance): REJECT for top-tier FL venues (ICML/NeurIPS/AISTATS/ICLR). Workshop/도메인 특화지(KIIE) 수준에서는 CONDITIONAL PASS 가능, 단 다수의 프레이밍/베이스라인 보강 필수.

"FeDPM+DLinear(R1b) PAPE=38.40%가 전체 최선, 논문 기여 충분"이라는 보고서의 결론은 FL 연구로서 성립하지 않는다. 본 리뷰는 저자의 주장 하나하나를 반박한다.


1. FL 베이스라인의 단일성 (Critical)