실험5 설계: FedAvg-FT 추가 연구¶
날짜: 2026-04-14 담당: lab-leader Status: Planned
목표¶
FedAvg-FT가 다른 FL 방법론 대비 피크 탐지(PAPE) 성능이 유의미하게 높음을 FT 에포크 세분화와 통계 검증으로 확증
가설¶
- H5-1 (Phase 2): FedAvg+FT는 FedAvg(no-FT) 대비 PAPE가 유의미하게 낮다
- H5-2 (Phase 2): FT 에포크 간 최적점이 존재하며 {10, 30, 50, 70} 범위에서 식별 가능하다
- H5-3 (Phase 3): Early stopping 적용 후에도 FT는 zero-shot(CS1) 대비 PAPE를 개선한다
전제¶
실험4에서 완료된 코드 수정(C1~C3, M1~M5, m1~m3)이 이미 반영되어 있으므로 추가 코드 수정 없이 기존 스크립트를 재사용한다.
v5_0413_fed_train.py:--ft_epochs단일 정수 인자로 {10, 30, 50, 70} 조건별 반복 실행v5_0413_fed_cold_start.py:--ft_epochs_list 0 10 30 50 70CLI 인자 변경- 새 스크립트: orchestration wrapper + 결과 분석용만 신규 작성
실험 조건 매트릭스¶
Phase 2 (fed_train.py)¶
| Run ID | method | ft_epochs | 비고 |
|---|---|---|---|
| E5-P2-L1 | local | 0 | 기존 baseline 재실행 (수정 코드 적용) |
| E5-P2-F1 | fedavg | 0 | FedAvg no-FT |
| E5-P2-F3-10 | fedavg | 10 | FedAvg+FT-10 |
| E5-P2-F3-30 | fedavg | 30 | FedAvg+FT-30 (신규) |
| E5-P2-F3-50 | fedavg | 50 | FedAvg+FT-50 (신규) |
| E5-P2-F3-70 | fedavg | 70 | FedAvg+FT-70 (신규) |
| E5-P2-F4 | fedprox | 0 | FedProx baseline |
| E5-P2-F5 | feddf | 0 | FedDF baseline |
Phase 3 (fed_cold_start.py)¶
| Run ID | ft_epochs_list | data_fractions | 비고 |
|---|---|---|---|
| E5-P3 | 0 10 30 50 70 | 0.1 0.3 0.5 1.0 | early stopping 적용, 20개 조합 |
태스크 분해 및 담당¶
T5-0. 실험 설계 확정 (lab-leader) — Done¶
T5-1. orchestration 스크립트 작성 (engineer)¶
- 파일명:
experiments/federated/v6_0414_exp5_run_all.py - Phase 2 8개 run + Phase 3 1개 run을 subprocess로 순차 호출
- MLflow experiment name:
v6_exp5_fedavg_ft_ablation - 선결 조건: 없음
T5-2. 실험 실행 (exp-expert)¶
uv run python experiments/federated/v6_0414_exp5_run_all.py실행- 이상값(PAPE > 80% 또는 NaN) 발생 시 해당 run 단독 재실행 후 원인 분석
- 선결 조건: T5-1 완료
T5-3. 결과 분석 스크립트 작성 (engineer)¶
- 파일명:
experiments/federated/v6_0414_exp5_analysis.py - 분석 내용:
- Phase 2: FT 에포크별 평균 PAPE + 가구별 표준편차 테이블
- Phase 2: Wilcoxon signed-rank test (FedAvg+FT-best vs FedAvg no-FT, n=5)
- Phase 2: FT 에포크 vs PAPE 라인 플롯 (최적 에포크 식별)
- Phase 3: early stopping 적용 후 FT 에포크별 PAPE heat map (ft_epochs x data_fraction)
- Phase 3: CS1(zero-shot) 대비 최선 FT 조건 개선율
- 출력:
outputs/fed_learning/exp5/ - 선결 조건: 없음 (CSV 스키마는 기존 v5 결과에서 확인 가능)
T5-4. 결과 검토 및 자기 평가 (exp-expert)¶
- H5-1/H5-2/H5-3 판정, 재실험 필요 여부 결정
- 체크리스트:
- PAPE 해석 방향 확인 (낮을수록 좋음)
- Wilcoxon p-value < 0.05 여부 (n=5 한계 명시적 서술)
- FT 최적 에포크 plateau 확인
- early stopping 실제 조기 종료 여부 (epoch log 검토)
- Phase 3 heat map에서 data_fraction 낮을 때 FT 효과 반전 여부
- 선결 조건: T5-2 + T5-3 완료
T5-5. exp-critic 리뷰 (exp-critic)¶
- Wilcoxon n=5 통계적 한계 명시 확인
- early stopping 실제 작동 여부 확인
- FT 에포크 선택 근거 (데이터 기반 vs 사후 선택)
- Phase 2-3 일관성 검토
- 선결 조건: T5-4 완료
T5-6. 실험 보고서 작성 (reporter)¶
- 파일명:
report/exp-expert/v6_0414_exp5_fedavg_ft_report.md - 선결 조건: T5-5 통과
의존성 그래프¶
T5-0 (Done)
├─→ T5-1 (engineer: orchestration) ──┐
│ ├─→ T5-2 (exp-expert: 실행)
└─→ T5-3 (engineer: 분석 스크립트) ──┘ │
↓
T5-4 (exp-expert: 자기 평가)
↓
T5-5 (exp-critic: 리뷰)
↓
T5-6 (reporter: 보고서)
- T5-1 + T5-3: engineer 2건 병렬 배치 가능
- T5-2: T5-1 완료 후 실행 (T5-3은 실행에 불필요, 분석에만 필요)
- T5-4: T5-2 + T5-3 둘 다 완료 후
- T5-4 이후: adversarial loop이므로 순차 필수
리스크 관리¶
| 리스크 | 영향 태스크 | 대응 |
|---|---|---|
| Wilcoxon p > 0.05 (n=5 한계) | T5-5 | 유의성 달성 불가 명시, Cohen's d 보조 지표 병행 |
| FT-70이 FT-50과 동일 성능 (plateau) | T5-4 | 최적 에포크 ≤50 결론으로 활용 (논문 기여) |
| early stopping이 FT-10에서도 조기 종료 | T5-4 | FT 에포크 하한 추가 탐색 (T5-2 재실행) |
| Phase 3 실행 시간 과다 (20 conditions x 5 hh) | T5-2 | 순차 실행, 예상 소요 시간 사전 측정 |
다음 세션 착수 순서¶
- T5-1 + T5-3 병렬 배치 → engineer 2건 동시 진행
- T5-1 완료 확인 후 → T5-2 exp-expert 실행
- T5-2 + T5-3 완료 후 → T5-4 exp-expert 자기 평가