track-e v2 2차 적대적 리뷰¶

종합 판정: CONDITIONAL REJECT (실질 개선 3건, 해결 위장 4건, 악화 1건, 신규 결함 4건). v2는 v1 대비 문서 수준에서는 대폭 개선됐으나, 논리 구조 수준에서 Branch E 발동 불가라는 치명적 결함이 새로 발생함. Workshop 제출(D+7)을 Branch 판정 미결 상태로 강행하게 만드는 구조적 모순이 존재함.

0. Executive Summary (한국어 인라인 요약 ~300단어)¶

v2는 v1의 HARKing 구조와 175-runs workload overrun에 대해 다섯 가지 표면 지표에서 개선을 보였다. Branch E 신설, Branch D 대칭화, 초록 강화 조항 삭제, Tier 1a/1b 분할, γ ≤ 0.95 상한이 그것이다. 이 중 초록 강화 조항 삭제(C5)와 γ 상한(M3)은 실질 해결로 판정한다. Branch 5분기 대칭화(C1, H2)도 문서 수준에서 대칭을 확보했다.

그러나 네 가지 Critical/High가 해결 위장에 그친다. 첫째, C2 Novelty의 mechanistic hypothesis는 EMA와 KMEANS 2종만 작성되었고 RESET/β/γ는 Tier 1b 문서로 이월되어 현 시점에서 가설 없이 실험 설계됨. 선행 연구 3편 중 1편(FeDPM)만 D+1 작업, 나머지 2편은 D+2~D+6에 분산 — "review 선행 후 차별점 정의"라는 방법론의 시간 순서가 역전됨. 둘째, C3 util 문헌 근거는 "D+1에 확인 예정" 상태로 여전히 현 v2에 부재. 셋째, C4 Workload 120 GPU-hours 추정의 run당 2h 가정은 track-d Exp6 historical data 검증 없이 제시됨 — D+0 engineer 실측 전에 Tier 1a 구조를 확정한 것은 여전히 hope-based planning. 넷째, 미해결 Critical 4개 중 D-3 heterogeneity는 α 2 values로 여전히 부족하고, D-2 pFL은 FedBN 추가로도 pFedMe/SCAFFOLD 누락 상태다.

가장 치명적인 신규 결함은 Branch E 발동 조건이 Tier 1a에서 구조적으로 충족 불가하다는 점이다. Branch E는 "VQ 개선 기법 3종 모두 실패"인데 Tier 1a는 2종(EMA, KMEANS)만 시도하고 RESET은 Tier 1b 이월됨. 결과적으로 D+7 Workshop 제출 시점에 Branch 판정이 미결 상태가 되어 초록 C3 방어 여부가 확정되지 못한 채 제출된다. 또한 Tier 1a 결과로 Branch A 판정 시 Workshop 제출, 그러나 Tier 1b에서 RESET이 오히려 악화 결과를 내면 camera-ready/저널 단계에서 재수정 필요 — 이는 pre-registration 원칙의 사후 훼손이다.

판정: CONDITIONAL REJECT. Branch E 발동 조건을 Tier 1a-achievable한 형태로 재정의하거나, Tier 1a에 RESET을 포함하거나, Workshop 제출을 Tier 1b 완료 후(D+14 이후)로 연기 중 하나를 선택해야 통과.

1. 심각도 분류 범례¶

Critical (C): REJECT 사유. 재설계 없이는 진행 불가.
High (H): CONDITIONAL PASS. 사전 명문화된 수정 후 진행.
Medium (M): PASS with caveats. 문서 보강 필요.
Low (L): 주의 사항. 진행 가능.

분류 태그: - [실질 해결]: 문서 + 논리 모두 해결됨. - [해결 위장]: 문서 수준에서만 해결된 척, 실제로는 미해결 또는 후속 과제로 밀림. - [악화]: v1 대비 오히려 나빠짐. - [신규 결함]: v1에는 없던 결함이 v2 재구성 과정에서 발생.

2. A. Critical 해결 여부 실질 검증¶

A-1. Branch E 발동 조건의 구체성 — Critical, 신규 결함¶

문제: Branch E는 "VQ 개선 기법 3종 모두 y_vq=0 대비 CI 0 포함"인데, Tier 1a는 EMA + KMEANS 2종만 실행하고 RESET은 Tier 1b로 이월됨(line 53, line 245).

귀결 1 (Branch E 발동 불가): D+7 Workshop 제출 시점에는 2종 결과만 보유. "3종 모두 실패" 조건이 논리적으로 충족 불가능. Branch E는 빨라야 Tier 1b(D+14)에서야 판정 가능.

귀결 2 (Workshop 제출 모순): D+7 Workshop 제출은 Tier 1a 완료 시점인데, 이 시점에 Branch 판정이 미결이면 초록 C3 방어 여부가 확정되지 못한 채 제출된다. Tier 1a에서 Branch A로 가판정 후 Tier 1b에서 RESET이 A 판정을 뒤집으면 camera-ready/저널 재수정 발생 — pre-registration 원칙의 사후 훼손.

귀결 3 (Branch A/D 판정도 Tier 1a에서 불완전): Branch A/D는 "최선 VQ 기법"을 기준으로 하는데 "최선"을 2종 중에서 고르는 것과 3종 중에서 고르는 것은 다른 판정. Tier 1b RESET이 EMA/KMEANS보다 우수한 경우가 존재한다면 Tier 1a "최선"은 false minimum.

근거: line 89~94 (Branch E 정의), line 189 (Tier 1a VQ 3개 실험), line 245 (Tier 1b에 RESET 추가), line 227 (Tier 1a deliverable 체크리스트에 Branch 판정 포함).

권고 (택1): 1. Branch E 조건을 "Tier 1a에서 시도한 VQ 개선 기법 N종 모두 개선 없음"으로 완화하되, N=2가 "3종 중 2종"임을 초록에 명시 disclosure. 2. Tier 1a에 RESET을 포함하도록 Workload 재조정 (Dirichlet α 1 value 삭제 또는 FedBN 삭제). 3. Workshop 제출을 D+7에서 D+14로 연기하고 Tier 1b 완료 후 Branch 판정.

우선 추천: (2) — Dirichlet α=0.1만 Tier 1a, α=1.0은 Tier 1b로 밀어 RESET을 Tier 1a에 포함. α sweep 1 value 축소는 이미 D-3(α 2 values 부족) 지적과 별개 문제.

A-2. Branch D 대칭화 — Medium, 해결 위장¶

문제: "최선 VQ 기법이 y_vq=0 대비 2%p 이상 나쁨"의 "최선 VQ 기법"이 사전 정의되지 않음. RESET이 Tier 1b 이월된 상태에서 "최선"은 Tier 1a 결과 기반으로 선택되며, Tier 1a 결과 확인 후 EMA alone과 EMA+KMEANS 중 유리한 쪽을 사후 선택할 여지 존재.

근거: line 86~88 (Branch D 정의)에 "최선"의 선택 규칙 미명시.

권고: Branch D/E 판정 시 "최선 VQ 기법 = Tier 1a pairwise 3종(EMA alone, KMEANS alone, EMA+KMEANS) 중 y_vq=0 대비 PAPE 차이 절댓값이 가장 작은 설정"으로 pre-register. 이견 있으면 "PAPE 평균값이 가장 낮은 설정"으로 통일. cherry-picking 방지 조항 필요.

A-3. Novelty 방어 — High, 부분 해결/해결 위장¶

문제 1 (mechanistic hypothesis 완성도): v2 line 180~187에 EMA와 KMEANS 2종의 mechanistic hypothesis만 작성됨. RESET의 hypothesis는 부재 (Tier 1b 이월). β/M/γ는 Tier 1b로 강등되며 hypothesis 없음. → Tier 1b에 돌입해야 할 기법들이 현 시점 가설 없이 실험 설계됨.

문제 2 (선행 연구 review 시간 순서 역전): line 123 "Tier 0 (D+1) 착수 후 Tier 1a 중 지속 업데이트". FeDPM만 D+1, TimeVQVAE/FedVAE/FedKD 2편은 D+2~D+6 분산(line 58). Novelty 재포지셔닝("동일 도메인 FL에서 VQ pattern sharing 성립 조건 체계 분석")을 주장하려면 선행 review가 차별점을 정의해야 하는데, 차별점 없이 실험부터 시작하는 구조. "차별점 pre-register"(line 125) 문구는 선언일 뿐 실제로는 실험 후 review가 따라오는 순서.

문제 3 (재포지셔닝의 구현): "조건의 체계적 분석"이라 했으면 "분석 지표 + 조건 공간 정의"가 v2에 있어야 함. line 127 "codebook size M, commitment weight β, client heterogeneity, VQ initialization"이 조건 공간이라 언급되나 M과 β는 Tier 1b 강등(line 248), heterogeneity는 α 2 values만 Tier 1a — 즉 Tier 1a에서 "체계적 분석" claim이 가능한 조건 차원은 VQ initialization 1개뿐. 문장 수준 재포지셔닝이지 실질 체계 분석 구조 아님.

근거: line 20 (C2 매트릭스), line 58 (review 2편 분산), line 114~127 (선행 연구 테이블), line 180~187 (mechanistic hypothesis 2종만 작성).

권고: 1. Tier 1b에 투입될 기법(RESET, β, M, γ)의 mechanistic hypothesis 전부 Tier 0/Tier 1a 착수 전에 명문화. 2. 선행 연구 review 3편을 Tier 0 D+1 (또는 D+0 밤)에 완료 — review 없이 실험 설계 진행 금지. 3. Tier 1a에서 분석 가능한 조건 차원이 initialization 1개뿐이면 "체계적 분석"이라는 novelty 주장을 "VQ initialization이 동일 도메인 FL에 미치는 영향 분석"으로 더 축소. 재포지셔닝은 진실한 범위로.

A-4. util 목표 문헌 근거 — Critical, 해결 위장¶

문제: "FeDPM 원논문 util 확인"이 T0-D(D+1) 작업으로 배정됨(line 141, line 150~152). 현 v2 시점에서는 여전히 util 목표치가 임의. "계획서 수준의 해결"이지 실질 해결 아님.

추가 문제: util↔PAPE Spearman 상관분석은 Tier 1a deliverable에 포함(line 234, 208)됨 — 이 부분은 해결. perplexity 병기도 포함(line 21, 144, 234) — 해결.

근거: line 21 (C3 매트릭스), line 141 T0-D, line 150~152 (D+0 우선순위 3).

권고: util 목표치 pre-register를 T0-D 완료 후(D+1 저녁) 즉시 v2 본문 갱신 + 버전 인상으로 명문화. 현재 v2는 "목표 미정 상태로 실험 설계" = pre-registration 불완전. 대안 = Tier 0 이전에 FeDPM 원논문 확인을 D+0 밤 작업으로 승격(우선순위 1).

A-5. Workload 추정의 현실성 — High, 해결 위장¶

문제 1 (run당 2h 가정 근거): line 81~83의 60 runs × 2h = 120 GPU-hours 가정에서 "run당 2h"의 근거가 track-d Exp6 historical data로 검증되지 않음. exp-expert 매트릭스에 "pre-estimate"라 표기(line 76 of revision_plan)되어 추정의 추정임을 자인.

문제 2 (D+0 engineer 실측 전 구조 동결): Tier 1a 실험 구성(60 runs, 3종 VQ, 5종 FL baseline, α 2 values)이 D+0 실측 전에 v2에서 확정됨(line 197~206). D+0 실측에서 workload overrun 나오면 구조 재축소 필요 — 이는 hope-based planning 재발 패턴.

문제 3 (구현 부담 D+3까지): FL baseline 3종(FedRep/Ditto/FedBN) 신규 구현 + VQ-EMA+KMEANS pairwise 구현 + Dirichlet α 데이터 파티션 재구성 = line 220~224 일정은 D+3까지 구현, D+4~D+5 실행. 구현 2.5일 + 실행 3일 가정인데 구현이 D+4로 밀리면 Tier 1a deliverable 체크리스트 12개(line 229~241) 완주 불가능.

근거: line 22 (C4 매트릭스), revision_plan line 76~83 (workload 추정), line 213~227 (Tier 1a 타임라인).

권고: 1. run당 시간 2h를 track-d Exp6 R1b run 시간으로 cross-check. R1b가 실제 2h였다면 명시, 아니면 pessimistic 4h 가정. 2. Tier 1a 실험 구성 확정을 "D+0 engineer 실측 결과 수용 후" 조건부로 변경. 실측 전 확정 금지. 3. 실험 매트릭스에 "구현 지연 시 축소 우선순위" 체크리스트 추가 (H3의 "VQ 축소 우선" 원칙은 있으나 실행 순서 미명시).

A-6. 초록 강화 조항 삭제 — [실질 해결]¶

평가: C5 지적 완전 해결. line 23 (C5 매트릭스), line 62~67 (초록 수정 방향 rollback-only), line 110 ("강화 방향 수정 금지") 모두 명문화. v3 원칙 복원됨.

3. B. High 지적 해결 검증¶

B-1. Ablation Matrix — Medium, 부분 해결¶

문제 1 (triple ablation 부재): v2가 Pairwise 3 cells (EMA alone / KMEANS alone / EMA+KMEANS)를 Tier 1a에 포함(line 191~193)했으나, RESET을 Tier 1b 이월(line 245)함으로써 Tier 1a에서 triple (EMA+KMEANS+RESET) 및 pairwise with RESET (EMA+RESET, KMEANS+RESET) 불가. Tier 1a만으로는 "RESET이 EMA/KMEANS와 상호작용하는지"를 전혀 판정 불가.

문제 2 (ensemble vs individual contribution): exp-expert가 "pairwise로 개별 기여 주장"인지 "ensemble best practices" 프레이밍 유지인지 v2에 명시하지 않음. line 60 재프레임 문장 "이 기법들의 조합이…"는 ensemble 프레이밍에 가까움. Branch A 서사(line 75) "VQ codebook이 기여 확인"도 개별 기여인지 조합 기여인지 모호.

근거: line 29 (H1 매트릭스), line 191~193 (Tier 1a pairwise 3종), line 248 (Tier 1b RESET pairwise).

권고: 1. v2 본문에 "Tier 1a 분석 범위 = EMA와 KMEANS의 개별/상호작용 기여, RESET은 Tier 1b에서 추가" 명시. 2. Branch A/D/E 서사를 "Tier 1a 기법 집합 내 최선"으로 한정. "VQ 기여" 일반화 주장 금지.

B-2. 자원 경쟁 해결 — Low, 실질 해결¶

평가: line 31 (H3 매트릭스)에 "FL baseline 완료 = Tier 1a hard requirement, VQ 축소 우선" 명문화. 그러나 체크리스트 형태로 실행 순서가 나열되진 않음. 실제 지연 시 "무엇을 먼저 자를지" 순위가 암묵적 — 명문화 권고.

권고: "VQ 축소 우선순위 체크리스트: (1) Dirichlet α 1 value 삭제, (2) pairwise 축소 EMA+KMEANS만, (3) VQ 기법 1종으로 축소, (4) 그래도 초과 시 Workshop 포기 Tier 1b 단일화" 순서로 pre-register.

4. C. Medium 지적 해결¶

C-1. RESET threshold 정찰의 Tier 1a 불필요성 — Low, [신규 결함]¶

문제: Tier 0 T0-E에서 RESET threshold 정찰(line 142)하지만 RESET은 Tier 1b에서만 사용됨(line 245). T0-E 결과가 D+1 pm에 나와도 D+14까지 사용 대기 — Tier 0 GPU-hours 낭비 가능성.

근거: line 142 T0-E, line 245 Tier 1b VQ-RESET.

권고: T0-E를 Tier 1a 스케줄에서 우선순위 3으로 이관 (D+1이 아닌 D+5~D+6으로). Tier 0는 Branch 판정에 필수적인 T0-A~T0-D로 한정.

C-2. K-means warm-up 미니 sweep — Low, 실질 해결¶

평가: line 38 (M2), line 143 (T0-F)에 {2, 5, 10} 미니 sweep 명시. 단 single seed라는 제약은 남음 — warm-up round 선택이 random seed sensitivity에 취약할 수 있음. 저위험이라 PASS.

C-3. γ ≤ 0.95 상한 — [실질 해결]¶

평가: line 39 (M3), line 249 (Tier 1b γ sweep {0.7, 0.8, 0.95})에 명문화. γ=1.0 제외 확정.

C-4. Cross-client overlap 측정 — Medium, 부분 해결¶

문제: line 40 (M4)에 "primary Jaccard, secondary cosine 0.9, Tier 1b Hungarian" 명시 — 문서 수준 해결. 그러나: 1. Jaccard와 cosine이 상이한 방향 결과를 줄 때 어느 쪽으로 판정할지 미명시. 2. Branch A 판정 기준 line 76 "Jaccard > 0.3" 단일 threshold — cosine secondary의 tie-breaking 역할 미정의.

근거: line 40 (M4), line 76 (Branch A 판정 증거).

권고: "Jaccard > 0.3 primary, 다만 Jaccard 결과가 0.25~0.35 경계에 있을 때만 cosine secondary로 tie-break" 등 결정 규칙 pre-register. 그렇지 않으면 결과 확인 후 유리한 지표로 사후 선택 가능.

5. D. 이전 미해결 Critical 4개¶

D-1. 통신 측정 — Medium, 해결 위장¶

문제 1 (Tier 1a 포함 여부): line 46 (매트릭스) "upload/download 분리, compression ratio, per-round bytes 공식 pre-register"는 명시되나, line 208 "통신 upload/download 분리 측정 + compression ratio vs FedAvg" 및 line 222 D+4 PM "통신 측정 (upload/download) + Pareto plot"으로 Tier 1a에 포함됨. 이 부분은 해결.

문제 2 (Pareto plot의 실질성): Pareto 1 axis는 PAPE, 다른 axis는 bytes/round. FedAvg/FedRep/Ditto/FedBN/R1b(VQ 포함)/R1b(y_vq=0) 6점 plot인데 각각 단일 seed가 아닌 5-seed 평균으로 error bar 포함할지 미명시. 통신 측정은 seed-independent일 가능성이 높으나 통신 × 성능 joint Pareto는 성능 분산을 반영해야 함.

근거: line 46, 208, 222.

권고: Pareto plot 각 점에 PAPE의 5-seed CI bar 표시 pre-register.

D-2. pFL 부재 — High, 부분 해결¶

문제: FedRep + Ditto + FedBN 3종으로 "broad baselines" 방어 중(line 47). pFedMe와 SCAFFOLD는 여전히 누락. "broad set of baselines"(C5 초록 claim) 방어 가능성은 3~4종(+FedAvg+Individual)으로 얇음.

추가 문제: FedBN은 BN layer만 local 유지로 "구현 간단" 정당화(line 47, exp-expert 매트릭스 line 73). 그러나 DLinear + VQ 구조에 BN layer가 몇 개인지, FedBN의 효과가 유의미하게 나올지 구조적 검증 없음. FedBN이 사실상 "트리비얼 차이"면 pFL 대표 claim 불가.

근거: line 47 (매트릭스), revision_plan line 72~73 (FedBN 선택 근거).

권고: 1. DLinear(+VQ) 구조에 BN이 몇 개 있는지 확인. BN이 적으면 FedBN은 거의 FedAvg와 동일 — pFL 대표성 없음. 2. C5 초록 claim을 "FL baselines including personalization methods (FedRep, Ditto, FedBN)"로 제한. "broad" 범용화 금지.

D-3. Heterogeneity 측정 — High, 해결 위장¶

문제: Dirichlet α ∈ {0.1, 1.0} 2 values가 Tier 1a 포함(line 48, 206). 그러나 "α 효과"를 주장하려면 최소 3 values 필요 (linear trend vs nonlinear peak). 2 values는 "extreme 2 points 비교"만 가능 — α monotonic effect claim 불가.

근거: line 48, line 206, line 258 (Tier 1b α 확장 {0.1, 0.5, 1.0, 10.0}).

권고: Tier 1a에 최소 α ∈ {0.1, 1.0, 10.0} 3 values 포함. 이것이 workload 추가를 부르면 FedBN 제거(D-2 연결) 또는 pairwise 축소로 보상. 아니면 α sweep claim을 Tier 1a에서 "extreme heterogeneity comparison" 수준으로만 제한 (초록/본문 문구 조정).

D-4. BESS 연결 — Low, 실질 해결¶

평가: line 49 (매트릭스), line 262 (Tier 2 작업)에 "operational evaluation in future work" 명시. Workshop/KIIE 본문에 future work 조항은 매트릭스에서만 약속되었고 초록 수정안에는 명시 없음 — 최소 PASS.

6. E. 새로 발생한 결함 가능성¶

E-1. Tier 1a/1b 분할의 논문 submission 로직 — Critical, 신규 결함¶

문제 1 (Tier 1b의 기능 불명): Tier 1a(D+7) Workshop 제출 후 Tier 1b(D+14)에서 무엇을 하나? - 옵션 α: Workshop camera-ready 업데이트 → 하지만 camera-ready deadline은 보통 acceptance 후 2~4주, D+14는 너무 빠름. - 옵션 β: 저널용 재준비 → 그러나 저널은 Tier 2 BESS 포함 후 제출로 설계됨(line 303). - 옵션 γ: Tier 1a에서 미결인 Branch 판정 확정 → E-1 (A-1) 문제와 순환적으로 충돌. Tier 1a에서 Workshop 제출 전 Branch 판정해야 하는데 RESET 미실시로 판정 불가.

문제 2 (KIIE 마감 D+11의 끼움): KIIE는 Tier 1a 완료(D+7)와 Tier 1b 완료(D+14) 사이(D+11). KIIE용 claim을 Tier 1a 결과만으로 확정 가능한지, Tier 1b 일부(D+8~D+10 결과)를 반영하는지 미정의. line 273~282 (KIIE 분기)에 "Tier 1a 결과가 D+7 전 확보된 경우만 제출"이라 하나 "D+8~D+10 Tier 1b 부분 결과"를 KIIE에 포함 가능 여부는 미명시.

근거: line 242~259 (Tier 1b), line 273~282 (KIIE 분기), line 294 (D+7 Gate).

권고: 1. Tier 1b의 기능 목적을 명시: "Workshop camera-ready용 / 저널 준비용 / Tier 1a Branch 판정 최종 확정용" 중 선택. 2. KIIE 제출 claim은 Tier 1a 결과만으로 확정하고 D+8~D+10 결과는 포함 금지 (pre-registration 준수).

E-2. RESET의 Tier 1b 이월이 Branch E 판정 저해 — Critical, 신규 결함 (A-1과 상호 연결)¶

A-1 참조. 동일 결함의 다른 관점. Tier 1a 종료 시점(D+7) Workshop 제출이 Branch 판정 미결 상태에서 이루어짐.

권고: A-1 권고 (1)(2)(3) 중 택1 필수.

E-3. Workshop negative-result paper 작성 가능성의 근거 — High, 신규 결함¶

문제: exp-expert가 "NeurIPS FL Workshop / FL-ICML negative result track 존재"(line 94, revision_plan line 98)라 주장하나 구체적 CFP, workshop명, 연도 미인용. "What does NOT work in FL" 트랙이 2025/2026 어느 workshop에 실재하는지 검증 필요.

실제 확인 필요: - NeurIPS 2026 FL workshop (아직 CFP 미공개 시기) — "negative result track" 공식 운영 여부 불명 - ICML 2026 FL workshop — CFP 확인 필요 - FL-ICLR 계열 — "what does NOT work" 공식 트랙 역사적 근거 필요

workshop이 negative result를 수용하는 것과 negative result track을 공식 운영하는 것은 다름. exp-expert 주장은 일반적 인식("workshop은 상대적으로 관대") 수준이지 CFP 인용 수준 아님.

근거: line 94, revision_plan line 98, memory line 32.

권고: 1. D+0 밤 또는 D+1 오전에 NeurIPS 2026 / ICML 2026 FL workshop CFP 실제 인용 확보. CFP 문구 인용이 없으면 "negative result 수용 workshop으로 추정"으로 문서 하향. 2. Branch E 발동 시 실제 제출 가능한 workshop 2곳 이상 pre-identify (리스크 헷지).

E-4. lab-leader 재량 override 금지 조항 — [실질 해결]¶

평가: line 110 ("lab-leader override 금지"), line 147 (Branch 자동 분류 override 불가), line 290 (D+1 Gate override 불가) 모두 명문화됨. v3 원칙 복원.

7. 신규 결함 추가 (리뷰 과정 발견)¶

E-5. Tier 0 T0-D의 D+1 완료 타이밍 문제 — High, 신규 결함¶

문제: T0-D (FeDPM 원논문 util 확인)가 D+1 작업(line 141)인데, D+0 밤 우선순위 3(line 149~152)에도 같은 항목 배치됨 — 중복 또는 분할? D+0에 "reference 노트 작성"까지 완료되면 D+1 T0-D는 무엇을 하나? 작업 scope 명확화 필요.

추가 문제: util 목표치 pre-register가 D+1 오후 Branch 판정 전에 완료되어야 "pre-registration"이 유효. D+1 오전에 완료되지 않으면 Branch 판정이 util 목표치 없이 이뤄져 invalid.

권고: T0-D를 D+0 밤 완료로 확정. D+1 T0-D 항목 삭제 또는 "T0-D 검증 및 반영"으로 재정의.

E-6. 5-seed 재실행의 Computational Budget 재검증 누락 — Medium, 신규 결함¶

문제: Tier 1a timeline (line 213~227)에서 "D+2: 전 baseline 5-seed 재실행 (B0, B1, P1, R1b)"에 이미 20 runs. 60 runs 중 20을 D+2 하루에 몰아넣음. 1일 = 24 GPU-hours면 run당 1.2h 이하여야 함 — 더 tight. 혹은 이미 track-d Exp6 baseline이 5-seed 확보되어 재실행 불필요한지 확인 필요.

근거: line 218 D+2, line 79 (baseline 재실행 20 runs).

권고: 1. track-d Exp6 MLflow에서 B0/B1/P1/R1b의 5-seed 존재 여부 확인. 존재 시 재실행 제외, 없으면 5-seed 부재를 별도 Critical로 승격. 2. D+2 하루 20 runs가 run당 1.2h 이내 가능한지 run time cross-check.

8. 종합 판정 및 분류 테이블¶

항목	v1 지적	v2 처리	실제 분류	심각도
C1 Branch E/D 대칭	Critical	Branch E 신설 + D 대칭	문서 해결, 논리 미해결(A-1)	Critical (신규)
C2 Novelty 근거	Critical	mechanistic hypothesis + review	부분 해결 (2종만 작성, review 역순)	High (해결 위장)
C3 util 목표	Critical	FeDPM 확인 T0-D 배정	해결 위장 (현재 v2 여전히 임의)	Critical
C4 Workload	Critical	Tier 1a/1b 분할, 60 runs	해결 위장 (run당 2h 미검증, D+0 전 동결)	High
C5 강화 조항	Critical	완전 삭제	실질 해결	Low
H1 Ablation matrix	High	Pairwise 3종	부분 해결 (RESET 미포함)	Medium
H2 Branch D 비대칭	High	C1 통합	C1과 동일 결함	Critical (신규)
H3 자원 경쟁	High	Hard requirement 선언	실질 해결	Low
M1 RESET threshold	Medium	T0-E	해결 + 신규 결함(C-1)	Low
M2 KMEANS warm-up	Medium	T0-F 미니 sweep	실질 해결	Low
M3 γ 상한	Medium	≤ 0.95	실질 해결	Low
M4 Overlap 측정	Medium	Jaccard primary	부분 해결 (tie-break 규칙 부재)	Low
D-1 통신 측정	Critical(이전)	Tier 1a 포함	실질 해결	Low
D-2 pFL	Critical(이전)	FedBN 추가	부분 해결 (SCAFFOLD/pFedMe 누락, FedBN 구조 미검증)	High
D-3 Heterogeneity	Critical(이전)	α 2 values	해결 위장 (3 values 필요)	High
D-4 BESS	Critical(이전)	future work 명시	실질 해결	Low
E-1 Tier 1a/1b 논리	(신규)	-	신규 결함	Critical
E-2 Branch E 발동 불가	(신규, A-1)	-	신규 결함	Critical
E-3 Workshop track 근거	(신규)	-	신규 결함	High
E-4 lab-leader override	(신규)	금지 조항	실질 해결	Low
E-5 T0-D 타이밍	(신규)	-	신규 결함	High
E-6 D+2 20 runs 현실성	(신규)	-	신규 결함	Medium

카테고리별 집계¶

실질 해결: 5건 (C5, M3, H3, D-1, D-4, E-4)
해결 위장: 4건 (C3 util, C4 Workload, D-3 Heterogeneity, plus 부분 해결된 C2, H1, D-2)
악화 없음: 0건 (v1 대비 명시적으로 나빠진 항목 없음)
신규 결함: 5건 (A-1/E-2, E-1, E-3, E-5, E-6)

9. 최종 판정¶

CONDITIONAL REJECT¶

근거: Critical 2건 신규 발생(A-1/E-2 Branch E 발동 불가, E-1 Tier 1a/1b 논리). Critical 2건 해결 위장(C3, D-3). 이들 4건이 해결 전 Tier 1a 착수 금지.

통과 조건 (전원 필수)¶

A-1 해결: Branch E 조건을 Tier 1a-achievable하게 재정의하거나 RESET을 Tier 1a 포함하거나 Workshop 제출을 D+14로 연기 (택1).
C3 해결: T0-D (FeDPM 원논문 확인)를 D+0 밤 우선순위 1로 승격 + util 목표치 D+0 밤 확정 후 v2 버전 인상.
C4 해결: run당 2h 가정을 track-d Exp6 historical data로 검증. D+0 engineer 실측 결과를 Tier 1a 구조 확정 조건으로 변경.
D-3 해결: Tier 1a α 최소 3 values 포함 (0.1, 1.0, 10.0) 또는 "heterogeneity trend" claim 철회 후 "extreme comparison only"로 초록 수정.
E-1 해결: Tier 1b 기능 목적 명시. KIIE 제출 claim 범위를 Tier 1a 결과로만 한정.
E-3 해결: NeurIPS FL Workshop / ICML FL workshop 2026 CFP 실제 인용 확보. 없으면 Branch E 서사 "workshop 수용 추정"으로 하향.

재검토 요건¶

위 6개 통과 조건 반영 후 v3 작성. v3 작성 시 exp-critic 3차 리뷰 필수. 통과 전 engineer D+0 작업 착수 가능하되 Tier 1a 스크립트 확정(line 143~145)은 v3 확정 후로 연기.

v2의 강점 (인정)¶

C5 강화 조항 삭제는 v1 대비 명확한 방법론 개선. pre-registration 원칙 회복.
γ ≤ 0.95 상한은 privacy narrative 일관성 확보.
Branch 5분기 자체는 문서 수준에서 완결된 설계 (단, 구현 가능성 A-1에서 문제).
Ablation matrix에 pairwise 개념 도입은 v1 대비 실험 해석력 강화.
lab-leader override 금지 3개소 명문화는 제도적 안전장치.

인정 범위¶

v2는 v1 대비 문서 품질에서는 실질 개선이며, exp-expert가 critic 지적을 진지하게 수용했음을 보여줌. 그러나 논리 구조에서 Branch E 발동 불가와 Tier 1a/1b 분할 모순이 발생 — 해결 위장이 아닌 구조적 신규 결함이다. 이를 해결하지 않으면 v2 실행은 v1의 HARKing을 표면만 개선한 채로 유지하는 결과로 이어진다.