track-e v2 2차 적대적 리뷰¶
종합 판정: CONDITIONAL REJECT (실질 개선 3건, 해결 위장 4건, 악화 1건, 신규 결함 4건). v2는 v1 대비 문서 수준에서는 대폭 개선됐으나, 논리 구조 수준에서 Branch E 발동 불가라는 치명적 결함이 새로 발생함. Workshop 제출(D+7)을 Branch 판정 미결 상태로 강행하게 만드는 구조적 모순이 존재함.
0. Executive Summary (한국어 인라인 요약 ~300단어)¶
v2는 v1의 HARKing 구조와 175-runs workload overrun에 대해 다섯 가지 표면 지표에서 개선을 보였다. Branch E 신설, Branch D 대칭화, 초록 강화 조항 삭제, Tier 1a/1b 분할, γ ≤ 0.95 상한이 그것이다. 이 중 초록 강화 조항 삭제(C5)와 γ 상한(M3)은 실질 해결로 판정한다. Branch 5분기 대칭화(C1, H2)도 문서 수준에서 대칭을 확보했다.
그러나 네 가지 Critical/High가 해결 위장에 그친다. 첫째, C2 Novelty의 mechanistic hypothesis는 EMA와 KMEANS 2종만 작성되었고 RESET/β/γ는 Tier 1b 문서로 이월되어 현 시점에서 가설 없이 실험 설계됨. 선행 연구 3편 중 1편(FeDPM)만 D+1 작업, 나머지 2편은 D+2~D+6에 분산 — "review 선행 후 차별점 정의"라는 방법론의 시간 순서가 역전됨. 둘째, C3 util 문헌 근거는 "D+1에 확인 예정" 상태로 여전히 현 v2에 부재. 셋째, C4 Workload 120 GPU-hours 추정의 run당 2h 가정은 track-d Exp6 historical data 검증 없이 제시됨 — D+0 engineer 실측 전에 Tier 1a 구조를 확정한 것은 여전히 hope-based planning. 넷째, 미해결 Critical 4개 중 D-3 heterogeneity는 α 2 values로 여전히 부족하고, D-2 pFL은 FedBN 추가로도 pFedMe/SCAFFOLD 누락 상태다.
가장 치명적인 신규 결함은 Branch E 발동 조건이 Tier 1a에서 구조적으로 충족 불가하다는 점이다. Branch E는 "VQ 개선 기법 3종 모두 실패"인데 Tier 1a는 2종(EMA, KMEANS)만 시도하고 RESET은 Tier 1b 이월됨. 결과적으로 D+7 Workshop 제출 시점에 Branch 판정이 미결 상태가 되어 초록 C3 방어 여부가 확정되지 못한 채 제출된다. 또한 Tier 1a 결과로 Branch A 판정 시 Workshop 제출, 그러나 Tier 1b에서 RESET이 오히려 악화 결과를 내면 camera-ready/저널 단계에서 재수정 필요 — 이는 pre-registration 원칙의 사후 훼손이다.
판정: CONDITIONAL REJECT. Branch E 발동 조건을 Tier 1a-achievable한 형태로 재정의하거나, Tier 1a에 RESET을 포함하거나, Workshop 제출을 Tier 1b 완료 후(D+14 이후)로 연기 중 하나를 선택해야 통과.
1. 심각도 분류 범례¶
- Critical (C): REJECT 사유. 재설계 없이는 진행 불가.
- High (H): CONDITIONAL PASS. 사전 명문화된 수정 후 진행.
- Medium (M): PASS with caveats. 문서 보강 필요.
- Low (L): 주의 사항. 진행 가능.
분류 태그: - [실질 해결]: 문서 + 논리 모두 해결됨. - [해결 위장]: 문서 수준에서만 해결된 척, 실제로는 미해결 또는 후속 과제로 밀림. - [악화]: v1 대비 오히려 나빠짐. - [신규 결함]: v1에는 없던 결함이 v2 재구성 과정에서 발생.
2. A. Critical 해결 여부 실질 검증¶
A-1. Branch E 발동 조건의 구체성 — Critical, 신규 결함¶
문제: Branch E는 "VQ 개선 기법 3종 모두 y_vq=0 대비 CI 0 포함"인데, Tier 1a는 EMA + KMEANS 2종만 실행하고 RESET은 Tier 1b로 이월됨(line 53, line 245).
귀결 1 (Branch E 발동 불가): D+7 Workshop 제출 시점에는 2종 결과만 보유. "3종 모두 실패" 조건이 논리적으로 충족 불가능. Branch E는 빨라야 Tier 1b(D+14)에서야 판정 가능.
귀결 2 (Workshop 제출 모순): D+7 Workshop 제출은 Tier 1a 완료 시점인데, 이 시점에 Branch 판정이 미결이면 초록 C3 방어 여부가 확정되지 못한 채 제출된다. Tier 1a에서 Branch A로 가판정 후 Tier 1b에서 RESET이 A 판정을 뒤집으면 camera-ready/저널 재수정 발생 — pre-registration 원칙의 사후 훼손.
귀결 3 (Branch A/D 판정도 Tier 1a에서 불완전): Branch A/D는 "최선 VQ 기법"을 기준으로 하는데 "최선"을 2종 중에서 고르는 것과 3종 중에서 고르는 것은 다른 판정. Tier 1b RESET이 EMA/KMEANS보다 우수한 경우가 존재한다면 Tier 1a "최선"은 false minimum.
근거: line 89~94 (Branch E 정의), line 189 (Tier 1a VQ 3개 실험), line 245 (Tier 1b에 RESET 추가), line 227 (Tier 1a deliverable 체크리스트에 Branch 판정 포함).
권고 (택1): 1. Branch E 조건을 "Tier 1a에서 시도한 VQ 개선 기법 N종 모두 개선 없음"으로 완화하되, N=2가 "3종 중 2종"임을 초록에 명시 disclosure. 2. Tier 1a에 RESET을 포함하도록 Workload 재조정 (Dirichlet α 1 value 삭제 또는 FedBN 삭제). 3. Workshop 제출을 D+7에서 D+14로 연기하고 Tier 1b 완료 후 Branch 판정.
우선 추천: (2) — Dirichlet α=0.1만 Tier 1a, α=1.0은 Tier 1b로 밀어 RESET을 Tier 1a에 포함. α sweep 1 value 축소는 이미 D-3(α 2 values 부족) 지적과 별개 문제.
A-2. Branch D 대칭화 — Medium, 해결 위장¶
문제: "최선 VQ 기법이 y_vq=0 대비 2%p 이상 나쁨"의 "최선 VQ 기법"이 사전 정의되지 않음. RESET이 Tier 1b 이월된 상태에서 "최선"은 Tier 1a 결과 기반으로 선택되며, Tier 1a 결과 확인 후 EMA alone과 EMA+KMEANS 중 유리한 쪽을 사후 선택할 여지 존재.
근거: line 86~88 (Branch D 정의)에 "최선"의 선택 규칙 미명시.
권고: Branch D/E 판정 시 "최선 VQ 기법 = Tier 1a pairwise 3종(EMA alone, KMEANS alone, EMA+KMEANS) 중 y_vq=0 대비 PAPE 차이 절댓값이 가장 작은 설정"으로 pre-register. 이견 있으면 "PAPE 평균값이 가장 낮은 설정"으로 통일. cherry-picking 방지 조항 필요.
A-3. Novelty 방어 — High, 부분 해결/해결 위장¶
문제 1 (mechanistic hypothesis 완성도): v2 line 180~187에 EMA와 KMEANS 2종의 mechanistic hypothesis만 작성됨. RESET의 hypothesis는 부재 (Tier 1b 이월). β/M/γ는 Tier 1b로 강등되며 hypothesis 없음. → Tier 1b에 돌입해야 할 기법들이 현 시점 가설 없이 실험 설계됨.
문제 2 (선행 연구 review 시간 순서 역전): line 123 "Tier 0 (D+1) 착수 후 Tier 1a 중 지속 업데이트". FeDPM만 D+1, TimeVQVAE/FedVAE/FedKD 2편은 D+2~D+6 분산(line 58). Novelty 재포지셔닝("동일 도메인 FL에서 VQ pattern sharing 성립 조건 체계 분석")을 주장하려면 선행 review가 차별점을 정의해야 하는데, 차별점 없이 실험부터 시작하는 구조. "차별점 pre-register"(line 125) 문구는 선언일 뿐 실제로는 실험 후 review가 따라오는 순서.
문제 3 (재포지셔닝의 구현): "조건의 체계적 분석"이라 했으면 "분석 지표 + 조건 공간 정의"가 v2에 있어야 함. line 127 "codebook size M, commitment weight β, client heterogeneity, VQ initialization"이 조건 공간이라 언급되나 M과 β는 Tier 1b 강등(line 248), heterogeneity는 α 2 values만 Tier 1a — 즉 Tier 1a에서 "체계적 분석" claim이 가능한 조건 차원은 VQ initialization 1개뿐. 문장 수준 재포지셔닝이지 실질 체계 분석 구조 아님.
근거: line 20 (C2 매트릭스), line 58 (review 2편 분산), line 114~127 (선행 연구 테이블), line 180~187 (mechanistic hypothesis 2종만 작성).
권고: 1. Tier 1b에 투입될 기법(RESET, β, M, γ)의 mechanistic hypothesis 전부 Tier 0/Tier 1a 착수 전에 명문화. 2. 선행 연구 review 3편을 Tier 0 D+1 (또는 D+0 밤)에 완료 — review 없이 실험 설계 진행 금지. 3. Tier 1a에서 분석 가능한 조건 차원이 initialization 1개뿐이면 "체계적 분석"이라는 novelty 주장을 "VQ initialization이 동일 도메인 FL에 미치는 영향 분석"으로 더 축소. 재포지셔닝은 진실한 범위로.
A-4. util 목표 문헌 근거 — Critical, 해결 위장¶
문제: "FeDPM 원논문 util 확인"이 T0-D(D+1) 작업으로 배정됨(line 141, line 150~152). 현 v2 시점에서는 여전히 util 목표치가 임의. "계획서 수준의 해결"이지 실질 해결 아님.
추가 문제: util↔PAPE Spearman 상관분석은 Tier 1a deliverable에 포함(line 234, 208)됨 — 이 부분은 해결. perplexity 병기도 포함(line 21, 144, 234) — 해결.
근거: line 21 (C3 매트릭스), line 141 T0-D, line 150~152 (D+0 우선순위 3).
권고: util 목표치 pre-register를 T0-D 완료 후(D+1 저녁) 즉시 v2 본문 갱신 + 버전 인상으로 명문화. 현재 v2는 "목표 미정 상태로 실험 설계" = pre-registration 불완전. 대안 = Tier 0 이전에 FeDPM 원논문 확인을 D+0 밤 작업으로 승격(우선순위 1).
A-5. Workload 추정의 현실성 — High, 해결 위장¶
문제 1 (run당 2h 가정 근거): line 81~83의 60 runs × 2h = 120 GPU-hours 가정에서 "run당 2h"의 근거가 track-d Exp6 historical data로 검증되지 않음. exp-expert 매트릭스에 "pre-estimate"라 표기(line 76 of revision_plan)되어 추정의 추정임을 자인.
문제 2 (D+0 engineer 실측 전 구조 동결): Tier 1a 실험 구성(60 runs, 3종 VQ, 5종 FL baseline, α 2 values)이 D+0 실측 전에 v2에서 확정됨(line 197~206). D+0 실측에서 workload overrun 나오면 구조 재축소 필요 — 이는 hope-based planning 재발 패턴.
문제 3 (구현 부담 D+3까지): FL baseline 3종(FedRep/Ditto/FedBN) 신규 구현 + VQ-EMA+KMEANS pairwise 구현 + Dirichlet α 데이터 파티션 재구성 = line 220~224 일정은 D+3까지 구현, D+4~D+5 실행. 구현 2.5일 + 실행 3일 가정인데 구현이 D+4로 밀리면 Tier 1a deliverable 체크리스트 12개(line 229~241) 완주 불가능.
근거: line 22 (C4 매트릭스), revision_plan line 76~83 (workload 추정), line 213~227 (Tier 1a 타임라인).
권고: 1. run당 시간 2h를 track-d Exp6 R1b run 시간으로 cross-check. R1b가 실제 2h였다면 명시, 아니면 pessimistic 4h 가정. 2. Tier 1a 실험 구성 확정을 "D+0 engineer 실측 결과 수용 후" 조건부로 변경. 실측 전 확정 금지. 3. 실험 매트릭스에 "구현 지연 시 축소 우선순위" 체크리스트 추가 (H3의 "VQ 축소 우선" 원칙은 있으나 실행 순서 미명시).
A-6. 초록 강화 조항 삭제 — [실질 해결]¶
평가: C5 지적 완전 해결. line 23 (C5 매트릭스), line 62~67 (초록 수정 방향 rollback-only), line 110 ("강화 방향 수정 금지") 모두 명문화. v3 원칙 복원됨.
3. B. High 지적 해결 검증¶
B-1. Ablation Matrix — Medium, 부분 해결¶
문제 1 (triple ablation 부재): v2가 Pairwise 3 cells (EMA alone / KMEANS alone / EMA+KMEANS)를 Tier 1a에 포함(line 191~193)했으나, RESET을 Tier 1b 이월(line 245)함으로써 Tier 1a에서 triple (EMA+KMEANS+RESET) 및 pairwise with RESET (EMA+RESET, KMEANS+RESET) 불가. Tier 1a만으로는 "RESET이 EMA/KMEANS와 상호작용하는지"를 전혀 판정 불가.
문제 2 (ensemble vs individual contribution): exp-expert가 "pairwise로 개별 기여 주장"인지 "ensemble best practices" 프레이밍 유지인지 v2에 명시하지 않음. line 60 재프레임 문장 "이 기법들의 조합이…"는 ensemble 프레이밍에 가까움. Branch A 서사(line 75) "VQ codebook이 기여 확인"도 개별 기여인지 조합 기여인지 모호.
근거: line 29 (H1 매트릭스), line 191~193 (Tier 1a pairwise 3종), line 248 (Tier 1b RESET pairwise).
권고: 1. v2 본문에 "Tier 1a 분석 범위 = EMA와 KMEANS의 개별/상호작용 기여, RESET은 Tier 1b에서 추가" 명시. 2. Branch A/D/E 서사를 "Tier 1a 기법 집합 내 최선"으로 한정. "VQ 기여" 일반화 주장 금지.
B-2. 자원 경쟁 해결 — Low, 실질 해결¶
평가: line 31 (H3 매트릭스)에 "FL baseline 완료 = Tier 1a hard requirement, VQ 축소 우선" 명문화. 그러나 체크리스트 형태로 실행 순서가 나열되진 않음. 실제 지연 시 "무엇을 먼저 자를지" 순위가 암묵적 — 명문화 권고.
권고: "VQ 축소 우선순위 체크리스트: (1) Dirichlet α 1 value 삭제, (2) pairwise 축소 EMA+KMEANS만, (3) VQ 기법 1종으로 축소, (4) 그래도 초과 시 Workshop 포기 Tier 1b 단일화" 순서로 pre-register.
4. C. Medium 지적 해결¶
C-1. RESET threshold 정찰의 Tier 1a 불필요성 — Low, [신규 결함]¶
문제: Tier 0 T0-E에서 RESET threshold 정찰(line 142)하지만 RESET은 Tier 1b에서만 사용됨(line 245). T0-E 결과가 D+1 pm에 나와도 D+14까지 사용 대기 — Tier 0 GPU-hours 낭비 가능성.
근거: line 142 T0-E, line 245 Tier 1b VQ-RESET.
권고: T0-E를 Tier 1a 스케줄에서 우선순위 3으로 이관 (D+1이 아닌 D+5~D+6으로). Tier 0는 Branch 판정에 필수적인 T0-A~T0-D로 한정.
C-2. K-means warm-up 미니 sweep — Low, 실질 해결¶
평가: line 38 (M2), line 143 (T0-F)에 {2, 5, 10} 미니 sweep 명시. 단 single seed라는 제약은 남음 — warm-up round 선택이 random seed sensitivity에 취약할 수 있음. 저위험이라 PASS.
C-3. γ ≤ 0.95 상한 — [실질 해결]¶
평가: line 39 (M3), line 249 (Tier 1b γ sweep {0.7, 0.8, 0.95})에 명문화. γ=1.0 제외 확정.
C-4. Cross-client overlap 측정 — Medium, 부분 해결¶
문제: line 40 (M4)에 "primary Jaccard, secondary cosine 0.9, Tier 1b Hungarian" 명시 — 문서 수준 해결. 그러나: 1. Jaccard와 cosine이 상이한 방향 결과를 줄 때 어느 쪽으로 판정할지 미명시. 2. Branch A 판정 기준 line 76 "Jaccard > 0.3" 단일 threshold — cosine secondary의 tie-breaking 역할 미정의.
근거: line 40 (M4), line 76 (Branch A 판정 증거).
권고: "Jaccard > 0.3 primary, 다만 Jaccard 결과가 0.25~0.35 경계에 있을 때만 cosine secondary로 tie-break" 등 결정 규칙 pre-register. 그렇지 않으면 결과 확인 후 유리한 지표로 사후 선택 가능.
5. D. 이전 미해결 Critical 4개¶
D-1. 통신 측정 — Medium, 해결 위장¶
문제 1 (Tier 1a 포함 여부): line 46 (매트릭스) "upload/download 분리, compression ratio, per-round bytes 공식 pre-register"는 명시되나, line 208 "통신 upload/download 분리 측정 + compression ratio vs FedAvg" 및 line 222 D+4 PM "통신 측정 (upload/download) + Pareto plot"으로 Tier 1a에 포함됨. 이 부분은 해결.
문제 2 (Pareto plot의 실질성): Pareto 1 axis는 PAPE, 다른 axis는 bytes/round. FedAvg/FedRep/Ditto/FedBN/R1b(VQ 포함)/R1b(y_vq=0) 6점 plot인데 각각 단일 seed가 아닌 5-seed 평균으로 error bar 포함할지 미명시. 통신 측정은 seed-independent일 가능성이 높으나 통신 × 성능 joint Pareto는 성능 분산을 반영해야 함.
근거: line 46, 208, 222.
권고: Pareto plot 각 점에 PAPE의 5-seed CI bar 표시 pre-register.
D-2. pFL 부재 — High, 부분 해결¶
문제: FedRep + Ditto + FedBN 3종으로 "broad baselines" 방어 중(line 47). pFedMe와 SCAFFOLD는 여전히 누락. "broad set of baselines"(C5 초록 claim) 방어 가능성은 3~4종(+FedAvg+Individual)으로 얇음.
추가 문제: FedBN은 BN layer만 local 유지로 "구현 간단" 정당화(line 47, exp-expert 매트릭스 line 73). 그러나 DLinear + VQ 구조에 BN layer가 몇 개인지, FedBN의 효과가 유의미하게 나올지 구조적 검증 없음. FedBN이 사실상 "트리비얼 차이"면 pFL 대표 claim 불가.
근거: line 47 (매트릭스), revision_plan line 72~73 (FedBN 선택 근거).
권고: 1. DLinear(+VQ) 구조에 BN이 몇 개 있는지 확인. BN이 적으면 FedBN은 거의 FedAvg와 동일 — pFL 대표성 없음. 2. C5 초록 claim을 "FL baselines including personalization methods (FedRep, Ditto, FedBN)"로 제한. "broad" 범용화 금지.
D-3. Heterogeneity 측정 — High, 해결 위장¶
문제: Dirichlet α ∈ {0.1, 1.0} 2 values가 Tier 1a 포함(line 48, 206). 그러나 "α 효과"를 주장하려면 최소 3 values 필요 (linear trend vs nonlinear peak). 2 values는 "extreme 2 points 비교"만 가능 — α monotonic effect claim 불가.
근거: line 48, line 206, line 258 (Tier 1b α 확장 {0.1, 0.5, 1.0, 10.0}).
권고: Tier 1a에 최소 α ∈ {0.1, 1.0, 10.0} 3 values 포함. 이것이 workload 추가를 부르면 FedBN 제거(D-2 연결) 또는 pairwise 축소로 보상. 아니면 α sweep claim을 Tier 1a에서 "extreme heterogeneity comparison" 수준으로만 제한 (초록/본문 문구 조정).
D-4. BESS 연결 — Low, 실질 해결¶
평가: line 49 (매트릭스), line 262 (Tier 2 작업)에 "operational evaluation in future work" 명시. Workshop/KIIE 본문에 future work 조항은 매트릭스에서만 약속되었고 초록 수정안에는 명시 없음 — 최소 PASS.
6. E. 새로 발생한 결함 가능성¶
E-1. Tier 1a/1b 분할의 논문 submission 로직 — Critical, 신규 결함¶
문제 1 (Tier 1b의 기능 불명): Tier 1a(D+7) Workshop 제출 후 Tier 1b(D+14)에서 무엇을 하나? - 옵션 α: Workshop camera-ready 업데이트 → 하지만 camera-ready deadline은 보통 acceptance 후 2~4주, D+14는 너무 빠름. - 옵션 β: 저널용 재준비 → 그러나 저널은 Tier 2 BESS 포함 후 제출로 설계됨(line 303). - 옵션 γ: Tier 1a에서 미결인 Branch 판정 확정 → E-1 (A-1) 문제와 순환적으로 충돌. Tier 1a에서 Workshop 제출 전 Branch 판정해야 하는데 RESET 미실시로 판정 불가.
문제 2 (KIIE 마감 D+11의 끼움): KIIE는 Tier 1a 완료(D+7)와 Tier 1b 완료(D+14) 사이(D+11). KIIE용 claim을 Tier 1a 결과만으로 확정 가능한지, Tier 1b 일부(D+8~D+10 결과)를 반영하는지 미정의. line 273~282 (KIIE 분기)에 "Tier 1a 결과가 D+7 전 확보된 경우만 제출"이라 하나 "D+8~D+10 Tier 1b 부분 결과"를 KIIE에 포함 가능 여부는 미명시.
근거: line 242~259 (Tier 1b), line 273~282 (KIIE 분기), line 294 (D+7 Gate).
권고: 1. Tier 1b의 기능 목적을 명시: "Workshop camera-ready용 / 저널 준비용 / Tier 1a Branch 판정 최종 확정용" 중 선택. 2. KIIE 제출 claim은 Tier 1a 결과만으로 확정하고 D+8~D+10 결과는 포함 금지 (pre-registration 준수).
E-2. RESET의 Tier 1b 이월이 Branch E 판정 저해 — Critical, 신규 결함 (A-1과 상호 연결)¶
A-1 참조. 동일 결함의 다른 관점. Tier 1a 종료 시점(D+7) Workshop 제출이 Branch 판정 미결 상태에서 이루어짐.
권고: A-1 권고 (1)(2)(3) 중 택1 필수.
E-3. Workshop negative-result paper 작성 가능성의 근거 — High, 신규 결함¶
문제: exp-expert가 "NeurIPS FL Workshop / FL-ICML negative result track 존재"(line 94, revision_plan line 98)라 주장하나 구체적 CFP, workshop명, 연도 미인용. "What does NOT work in FL" 트랙이 2025/2026 어느 workshop에 실재하는지 검증 필요.
실제 확인 필요: - NeurIPS 2026 FL workshop (아직 CFP 미공개 시기) — "negative result track" 공식 운영 여부 불명 - ICML 2026 FL workshop — CFP 확인 필요 - FL-ICLR 계열 — "what does NOT work" 공식 트랙 역사적 근거 필요
workshop이 negative result를 수용하는 것과 negative result track을 공식 운영하는 것은 다름. exp-expert 주장은 일반적 인식("workshop은 상대적으로 관대") 수준이지 CFP 인용 수준 아님.
근거: line 94, revision_plan line 98, memory line 32.
권고: 1. D+0 밤 또는 D+1 오전에 NeurIPS 2026 / ICML 2026 FL workshop CFP 실제 인용 확보. CFP 문구 인용이 없으면 "negative result 수용 workshop으로 추정"으로 문서 하향. 2. Branch E 발동 시 실제 제출 가능한 workshop 2곳 이상 pre-identify (리스크 헷지).
E-4. lab-leader 재량 override 금지 조항 — [실질 해결]¶
평가: line 110 ("lab-leader override 금지"), line 147 (Branch 자동 분류 override 불가), line 290 (D+1 Gate override 불가) 모두 명문화됨. v3 원칙 복원.
7. 신규 결함 추가 (리뷰 과정 발견)¶
E-5. Tier 0 T0-D의 D+1 완료 타이밍 문제 — High, 신규 결함¶
문제: T0-D (FeDPM 원논문 util 확인)가 D+1 작업(line 141)인데, D+0 밤 우선순위 3(line 149~152)에도 같은 항목 배치됨 — 중복 또는 분할? D+0에 "reference 노트 작성"까지 완료되면 D+1 T0-D는 무엇을 하나? 작업 scope 명확화 필요.
추가 문제: util 목표치 pre-register가 D+1 오후 Branch 판정 전에 완료되어야 "pre-registration"이 유효. D+1 오전에 완료되지 않으면 Branch 판정이 util 목표치 없이 이뤄져 invalid.
권고: T0-D를 D+0 밤 완료로 확정. D+1 T0-D 항목 삭제 또는 "T0-D 검증 및 반영"으로 재정의.
E-6. 5-seed 재실행의 Computational Budget 재검증 누락 — Medium, 신규 결함¶
문제: Tier 1a timeline (line 213~227)에서 "D+2: 전 baseline 5-seed 재실행 (B0, B1, P1, R1b)"에 이미 20 runs. 60 runs 중 20을 D+2 하루에 몰아넣음. 1일 = 24 GPU-hours면 run당 1.2h 이하여야 함 — 더 tight. 혹은 이미 track-d Exp6 baseline이 5-seed 확보되어 재실행 불필요한지 확인 필요.
근거: line 218 D+2, line 79 (baseline 재실행 20 runs).
권고: 1. track-d Exp6 MLflow에서 B0/B1/P1/R1b의 5-seed 존재 여부 확인. 존재 시 재실행 제외, 없으면 5-seed 부재를 별도 Critical로 승격. 2. D+2 하루 20 runs가 run당 1.2h 이내 가능한지 run time cross-check.
8. 종합 판정 및 분류 테이블¶
| 항목 | v1 지적 | v2 처리 | 실제 분류 | 심각도 |
|---|---|---|---|---|
| C1 Branch E/D 대칭 | Critical | Branch E 신설 + D 대칭 | 문서 해결, 논리 미해결(A-1) | Critical (신규) |
| C2 Novelty 근거 | Critical | mechanistic hypothesis + review | 부분 해결 (2종만 작성, review 역순) | High (해결 위장) |
| C3 util 목표 | Critical | FeDPM 확인 T0-D 배정 | 해결 위장 (현재 v2 여전히 임의) | Critical |
| C4 Workload | Critical | Tier 1a/1b 분할, 60 runs | 해결 위장 (run당 2h 미검증, D+0 전 동결) | High |
| C5 강화 조항 | Critical | 완전 삭제 | 실질 해결 | Low |
| H1 Ablation matrix | High | Pairwise 3종 | 부분 해결 (RESET 미포함) | Medium |
| H2 Branch D 비대칭 | High | C1 통합 | C1과 동일 결함 | Critical (신규) |
| H3 자원 경쟁 | High | Hard requirement 선언 | 실질 해결 | Low |
| M1 RESET threshold | Medium | T0-E | 해결 + 신규 결함(C-1) | Low |
| M2 KMEANS warm-up | Medium | T0-F 미니 sweep | 실질 해결 | Low |
| M3 γ 상한 | Medium | ≤ 0.95 | 실질 해결 | Low |
| M4 Overlap 측정 | Medium | Jaccard primary | 부분 해결 (tie-break 규칙 부재) | Low |
| D-1 통신 측정 | Critical(이전) | Tier 1a 포함 | 실질 해결 | Low |
| D-2 pFL | Critical(이전) | FedBN 추가 | 부분 해결 (SCAFFOLD/pFedMe 누락, FedBN 구조 미검증) | High |
| D-3 Heterogeneity | Critical(이전) | α 2 values | 해결 위장 (3 values 필요) | High |
| D-4 BESS | Critical(이전) | future work 명시 | 실질 해결 | Low |
| E-1 Tier 1a/1b 논리 | (신규) | - | 신규 결함 | Critical |
| E-2 Branch E 발동 불가 | (신규, A-1) | - | 신규 결함 | Critical |
| E-3 Workshop track 근거 | (신규) | - | 신규 결함 | High |
| E-4 lab-leader override | (신규) | 금지 조항 | 실질 해결 | Low |
| E-5 T0-D 타이밍 | (신규) | - | 신규 결함 | High |
| E-6 D+2 20 runs 현실성 | (신규) | - | 신규 결함 | Medium |
카테고리별 집계¶
- 실질 해결: 5건 (C5, M3, H3, D-1, D-4, E-4)
- 해결 위장: 4건 (C3 util, C4 Workload, D-3 Heterogeneity, plus 부분 해결된 C2, H1, D-2)
- 악화 없음: 0건 (v1 대비 명시적으로 나빠진 항목 없음)
- 신규 결함: 5건 (A-1/E-2, E-1, E-3, E-5, E-6)
9. 최종 판정¶
CONDITIONAL REJECT¶
근거: Critical 2건 신규 발생(A-1/E-2 Branch E 발동 불가, E-1 Tier 1a/1b 논리). Critical 2건 해결 위장(C3, D-3). 이들 4건이 해결 전 Tier 1a 착수 금지.
통과 조건 (전원 필수)¶
- A-1 해결: Branch E 조건을 Tier 1a-achievable하게 재정의하거나 RESET을 Tier 1a 포함하거나 Workshop 제출을 D+14로 연기 (택1).
- C3 해결: T0-D (FeDPM 원논문 확인)를 D+0 밤 우선순위 1로 승격 + util 목표치 D+0 밤 확정 후 v2 버전 인상.
- C4 해결: run당 2h 가정을 track-d Exp6 historical data로 검증. D+0 engineer 실측 결과를 Tier 1a 구조 확정 조건으로 변경.
- D-3 해결: Tier 1a α 최소 3 values 포함 (0.1, 1.0, 10.0) 또는 "heterogeneity trend" claim 철회 후 "extreme comparison only"로 초록 수정.
- E-1 해결: Tier 1b 기능 목적 명시. KIIE 제출 claim 범위를 Tier 1a 결과로만 한정.
- E-3 해결: NeurIPS FL Workshop / ICML FL workshop 2026 CFP 실제 인용 확보. 없으면 Branch E 서사 "workshop 수용 추정"으로 하향.
재검토 요건¶
위 6개 통과 조건 반영 후 v3 작성. v3 작성 시 exp-critic 3차 리뷰 필수. 통과 전 engineer D+0 작업 착수 가능하되 Tier 1a 스크립트 확정(line 143~145)은 v3 확정 후로 연기.
v2의 강점 (인정)¶
- C5 강화 조항 삭제는 v1 대비 명확한 방법론 개선. pre-registration 원칙 회복.
- γ ≤ 0.95 상한은 privacy narrative 일관성 확보.
- Branch 5분기 자체는 문서 수준에서 완결된 설계 (단, 구현 가능성 A-1에서 문제).
- Ablation matrix에 pairwise 개념 도입은 v1 대비 실험 해석력 강화.
- lab-leader override 금지 3개소 명문화는 제도적 안전장치.
인정 범위¶
v2는 v1 대비 문서 품질에서는 실질 개선이며, exp-expert가 critic 지적을 진지하게 수용했음을 보여줌. 그러나 논리 구조에서 Branch E 발동 불가와 Tier 1a/1b 분할 모순이 발생 — 해결 위장이 아닌 구조적 신규 결함이다. 이를 해결하지 않으면 v2 실행은 v1의 HARKing을 표면만 개선한 채로 유지하는 결과로 이어진다.
10. exp-expert 전달 필수 수정 사항¶
- [Critical, A-1/E-2] Branch E 발동 가능하도록 Tier 1a 구성 재조정 (권고 3안 중 택1, 우선 추천 = Tier 1a RESET 포함 + Dirichlet α 1 value 축소).
- [Critical, C3] FeDPM 원논문 확인을 D+0 밤 작업 우선순위 1로 승격. util 목표치 D+0 밤 확정 + v2 본문 즉시 갱신.
- [Critical, C4] track-d Exp6 MLflow에서 R1b run time 조회. run당 2h 가정 검증/수정.
- [Critical, E-1] Tier 1b 기능 목적 (Workshop camera-ready / 저널 / Branch 판정 확정) 중 선택 + 명문화. KIIE claim 범위 Tier 1a 한정.
- [High, D-3] Tier 1a α 3 values (0.1, 1.0, 10.0)로 확장 또는 "heterogeneity trend" claim 철회.
- [High, E-3] NeurIPS 2026 / ICML 2026 FL workshop CFP 인용 확보. 실재 negative result track 문구 확인.
- [High, A-3] 선행 연구 3편 review를 Tier 0 D+1에 완료 (D+2~D+6 분산 금지). 차별점 pre-register 후 실험 진행.
- [High, D-2] DLinear+VQ 구조 내 BN layer 개수 확인. FedBN 효과 기대 가능성 사전 검증.
- [High, E-5] T0-D를 D+0 밤 완료로 확정. D+1 T0-D 항목 삭제 또는 재정의.
- [Medium, A-2] "최선 VQ 기법" 선택 규칙 pre-register (PAPE 평균 최저 설정).
- [Medium, C-1] T0-E를 Tier 1a 스케줄 D+5~D+6으로 이관. Tier 0 범위 축소.
- [Medium, C-4] Jaccard/cosine tie-break 규칙 pre-register.
- [Medium, E-6] D+2 20 runs 현실성 확인. track-d Exp6 baseline 5-seed 존재 여부 확인.
- [Low, H1] Tier 1a 분석 범위를 "EMA/KMEANS만" 명시. Branch 서사에 RESET 부재 언급.
- [Low, H3] VQ 축소 우선순위 체크리스트 pre-register.
- [Low, D-1] Pareto plot 각 점 5-seed CI bar 포함 pre-register.
11. 재실험/재설계 권고 체크리스트 (v3 작성용)¶
- Branch E 구조 재정의: Tier 1a 2종 결과로 발동 가능한 조건 (ex. "Tier 1a 시도 VQ 기법 전원 미개선")
- Tier 1a workload D+0 engineer 실측 결과 수용 조건부로 명시
- util 목표치 FeDPM 문헌 근거 기반 pre-register (D+0 완료)
- 선행 연구 3편 review 섹션 Tier 0 완료
- Dirichlet α 3 values Tier 1a 포함 검토
- Workshop venue CFP 실제 인용 (NeurIPS/ICML 2026 FL)
- Tier 1b 기능 목적 명시 + KIIE 제출 claim 범위 한정
- "최선 VQ 기법" 선택 규칙 pre-register
- overlap 측정 tie-break 규칙 pre-register
- track-d Exp6 R1b run time historical data 인용