실험5 설계: FedAvg-FT 추가 연구¶

날짜: 2026-04-14 담당: lab-leader Status: Planned

목표¶

FedAvg-FT가 다른 FL 방법론 대비 피크 탐지(PAPE) 성능이 유의미하게 높음을 FT 에포크 세분화와 통계 검증으로 확증

가설¶

H5-1 (Phase 2): FedAvg+FT는 FedAvg(no-FT) 대비 PAPE가 유의미하게 낮다
H5-2 (Phase 2): FT 에포크 간 최적점이 존재하며 {10, 30, 50, 70} 범위에서 식별 가능하다
H5-3 (Phase 3): Early stopping 적용 후에도 FT는 zero-shot(CS1) 대비 PAPE를 개선한다

전제¶

실험4에서 완료된 코드 수정(C1~C3, M1~M5, m1~m3)이 이미 반영되어 있으므로 추가 코드 수정 없이 기존 스크립트를 재사용한다.

v5_0413_fed_train.py: --ft_epochs 단일 정수 인자로 {10, 30, 50, 70} 조건별 반복 실행
v5_0413_fed_cold_start.py: --ft_epochs_list 0 10 30 50 70 CLI 인자 변경
새 스크립트: orchestration wrapper + 결과 분석용만 신규 작성

실험 조건 매트릭스¶

Phase 2 (fed_train.py)¶

Run ID	method	ft_epochs	비고
E5-P2-L1	local	0	기존 baseline 재실행 (수정 코드 적용)
E5-P2-F1	fedavg	0	FedAvg no-FT
E5-P2-F3-10	fedavg	10	FedAvg+FT-10
E5-P2-F3-30	fedavg	30	FedAvg+FT-30 (신규)
E5-P2-F3-50	fedavg	50	FedAvg+FT-50 (신규)
E5-P2-F3-70	fedavg	70	FedAvg+FT-70 (신규)
E5-P2-F4	fedprox	0	FedProx baseline
E5-P2-F5	feddf	0	FedDF baseline

Phase 3 (fed_cold_start.py)¶

Run ID	ft_epochs_list	data_fractions	비고
E5-P3	0 10 30 50 70	0.1 0.3 0.5 1.0	early stopping 적용, 20개 조합

태스크 분해 및 담당¶

T5-0. 실험 설계 확정 (lab-leader) — Done¶

T5-1. orchestration 스크립트 작성 (engineer)¶

파일명: experiments/federated/v6_0414_exp5_run_all.py
Phase 2 8개 run + Phase 3 1개 run을 subprocess로 순차 호출
MLflow experiment name: v6_exp5_fedavg_ft_ablation
선결 조건: 없음

T5-2. 실험 실행 (exp-expert)¶

uv run python experiments/federated/v6_0414_exp5_run_all.py 실행
이상값(PAPE > 80% 또는 NaN) 발생 시 해당 run 단독 재실행 후 원인 분석
선결 조건: T5-1 완료

T5-3. 결과 분석 스크립트 작성 (engineer)¶

파일명: experiments/federated/v6_0414_exp5_analysis.py
분석 내용:
Phase 2: FT 에포크별 평균 PAPE + 가구별 표준편차 테이블
Phase 2: Wilcoxon signed-rank test (FedAvg+FT-best vs FedAvg no-FT, n=5)
Phase 2: FT 에포크 vs PAPE 라인 플롯 (최적 에포크 식별)
Phase 3: early stopping 적용 후 FT 에포크별 PAPE heat map (ft_epochs x data_fraction)
Phase 3: CS1(zero-shot) 대비 최선 FT 조건 개선율
출력: outputs/fed_learning/exp5/
선결 조건: 없음 (CSV 스키마는 기존 v5 결과에서 확인 가능)

T5-4. 결과 검토 및 자기 평가 (exp-expert)¶

H5-1/H5-2/H5-3 판정, 재실험 필요 여부 결정
체크리스트:
PAPE 해석 방향 확인 (낮을수록 좋음)
Wilcoxon p-value < 0.05 여부 (n=5 한계 명시적 서술)
FT 최적 에포크 plateau 확인
early stopping 실제 조기 종료 여부 (epoch log 검토)
Phase 3 heat map에서 data_fraction 낮을 때 FT 효과 반전 여부
선결 조건: T5-2 + T5-3 완료

T5-5. exp-critic 리뷰 (exp-critic)¶

Wilcoxon n=5 통계적 한계 명시 확인
early stopping 실제 작동 여부 확인
FT 에포크 선택 근거 (데이터 기반 vs 사후 선택)
Phase 2-3 일관성 검토
선결 조건: T5-4 완료

T5-6. 실험 보고서 작성 (reporter)¶

파일명: report/exp-expert/v6_0414_exp5_fedavg_ft_report.md
선결 조건: T5-5 통과

의존성 그래프¶

T5-0 (Done)
    ├─→ T5-1 (engineer: orchestration) ──┐
    │                                     ├─→ T5-2 (exp-expert: 실행)
    └─→ T5-3 (engineer: 분석 스크립트) ──┘         │
                                                    ↓
                                              T5-4 (exp-expert: 자기 평가)
                                                    ↓
                                              T5-5 (exp-critic: 리뷰)
                                                    ↓
                                              T5-6 (reporter: 보고서)

T5-1 + T5-3: engineer 2건 병렬 배치 가능
T5-2: T5-1 완료 후 실행 (T5-3은 실행에 불필요, 분석에만 필요)
T5-4: T5-2 + T5-3 둘 다 완료 후
T5-4 이후: adversarial loop이므로 순차 필수

리스크 관리¶

리스크	영향 태스크	대응
Wilcoxon p > 0.05 (n=5 한계)	T5-5	유의성 달성 불가 명시, Cohen's d 보조 지표 병행
FT-70이 FT-50과 동일 성능 (plateau)	T5-4	최적 에포크 ≤50 결론으로 활용 (논문 기여)
early stopping이 FT-10에서도 조기 종료	T5-4	FT 에포크 하한 추가 탐색 (T5-2 재실행)
Phase 3 실행 시간 과다 (20 conditions x 5 hh)	T5-2	순차 실행, 예상 소요 시간 사전 측정

다음 세션 착수 순서¶

T5-1 + T5-3 병렬 배치 → engineer 2건 동시 진행
T5-1 완료 확인 후 → T5-2 exp-expert 실행
T5-2 + T5-3 완료 후 → T5-4 exp-expert 자기 평가