콘텐츠로 이동

실험5 설계: FedAvg-FT 추가 연구

날짜: 2026-04-14 담당: lab-leader Status: Planned


목표

FedAvg-FT가 다른 FL 방법론 대비 피크 탐지(PAPE) 성능이 유의미하게 높음을 FT 에포크 세분화와 통계 검증으로 확증

가설

  • H5-1 (Phase 2): FedAvg+FT는 FedAvg(no-FT) 대비 PAPE가 유의미하게 낮다
  • H5-2 (Phase 2): FT 에포크 간 최적점이 존재하며 {10, 30, 50, 70} 범위에서 식별 가능하다
  • H5-3 (Phase 3): Early stopping 적용 후에도 FT는 zero-shot(CS1) 대비 PAPE를 개선한다

전제

실험4에서 완료된 코드 수정(C1~C3, M1~M5, m1~m3)이 이미 반영되어 있으므로 추가 코드 수정 없이 기존 스크립트를 재사용한다.

  • v5_0413_fed_train.py: --ft_epochs 단일 정수 인자로 {10, 30, 50, 70} 조건별 반복 실행
  • v5_0413_fed_cold_start.py: --ft_epochs_list 0 10 30 50 70 CLI 인자 변경
  • 새 스크립트: orchestration wrapper + 결과 분석용만 신규 작성

실험 조건 매트릭스

Phase 2 (fed_train.py)

Run ID method ft_epochs 비고
E5-P2-L1 local 0 기존 baseline 재실행 (수정 코드 적용)
E5-P2-F1 fedavg 0 FedAvg no-FT
E5-P2-F3-10 fedavg 10 FedAvg+FT-10
E5-P2-F3-30 fedavg 30 FedAvg+FT-30 (신규)
E5-P2-F3-50 fedavg 50 FedAvg+FT-50 (신규)
E5-P2-F3-70 fedavg 70 FedAvg+FT-70 (신규)
E5-P2-F4 fedprox 0 FedProx baseline
E5-P2-F5 feddf 0 FedDF baseline

Phase 3 (fed_cold_start.py)

Run ID ft_epochs_list data_fractions 비고
E5-P3 0 10 30 50 70 0.1 0.3 0.5 1.0 early stopping 적용, 20개 조합

태스크 분해 및 담당

T5-0. 실험 설계 확정 (lab-leader) — Done

T5-1. orchestration 스크립트 작성 (engineer)

  • 파일명: experiments/federated/v6_0414_exp5_run_all.py
  • Phase 2 8개 run + Phase 3 1개 run을 subprocess로 순차 호출
  • MLflow experiment name: v6_exp5_fedavg_ft_ablation
  • 선결 조건: 없음

T5-2. 실험 실행 (exp-expert)

  • uv run python experiments/federated/v6_0414_exp5_run_all.py 실행
  • 이상값(PAPE > 80% 또는 NaN) 발생 시 해당 run 단독 재실행 후 원인 분석
  • 선결 조건: T5-1 완료

T5-3. 결과 분석 스크립트 작성 (engineer)

  • 파일명: experiments/federated/v6_0414_exp5_analysis.py
  • 분석 내용:
  • Phase 2: FT 에포크별 평균 PAPE + 가구별 표준편차 테이블
  • Phase 2: Wilcoxon signed-rank test (FedAvg+FT-best vs FedAvg no-FT, n=5)
  • Phase 2: FT 에포크 vs PAPE 라인 플롯 (최적 에포크 식별)
  • Phase 3: early stopping 적용 후 FT 에포크별 PAPE heat map (ft_epochs x data_fraction)
  • Phase 3: CS1(zero-shot) 대비 최선 FT 조건 개선율
  • 출력: outputs/fed_learning/exp5/
  • 선결 조건: 없음 (CSV 스키마는 기존 v5 결과에서 확인 가능)

T5-4. 결과 검토 및 자기 평가 (exp-expert)

  • H5-1/H5-2/H5-3 판정, 재실험 필요 여부 결정
  • 체크리스트:
  • PAPE 해석 방향 확인 (낮을수록 좋음)
  • Wilcoxon p-value < 0.05 여부 (n=5 한계 명시적 서술)
  • FT 최적 에포크 plateau 확인
  • early stopping 실제 조기 종료 여부 (epoch log 검토)
  • Phase 3 heat map에서 data_fraction 낮을 때 FT 효과 반전 여부
  • 선결 조건: T5-2 + T5-3 완료

T5-5. exp-critic 리뷰 (exp-critic)

  • Wilcoxon n=5 통계적 한계 명시 확인
  • early stopping 실제 작동 여부 확인
  • FT 에포크 선택 근거 (데이터 기반 vs 사후 선택)
  • Phase 2-3 일관성 검토
  • 선결 조건: T5-4 완료

T5-6. 실험 보고서 작성 (reporter)

  • 파일명: report/exp-expert/v6_0414_exp5_fedavg_ft_report.md
  • 선결 조건: T5-5 통과

의존성 그래프

T5-0 (Done)
    ├─→ T5-1 (engineer: orchestration) ──┐
    │                                     ├─→ T5-2 (exp-expert: 실행)
    └─→ T5-3 (engineer: 분석 스크립트) ──┘         │
                                              T5-4 (exp-expert: 자기 평가)
                                              T5-5 (exp-critic: 리뷰)
                                              T5-6 (reporter: 보고서)
  • T5-1 + T5-3: engineer 2건 병렬 배치 가능
  • T5-2: T5-1 완료 후 실행 (T5-3은 실행에 불필요, 분석에만 필요)
  • T5-4: T5-2 + T5-3 둘 다 완료 후
  • T5-4 이후: adversarial loop이므로 순차 필수

리스크 관리

리스크 영향 태스크 대응
Wilcoxon p > 0.05 (n=5 한계) T5-5 유의성 달성 불가 명시, Cohen's d 보조 지표 병행
FT-70이 FT-50과 동일 성능 (plateau) T5-4 최적 에포크 ≤50 결론으로 활용 (논문 기여)
early stopping이 FT-10에서도 조기 종료 T5-4 FT 에포크 하한 추가 탐색 (T5-2 재실행)
Phase 3 실행 시간 과다 (20 conditions x 5 hh) T5-2 순차 실행, 예상 소요 시간 사전 측정

다음 세션 착수 순서

  1. T5-1 + T5-3 병렬 배치 → engineer 2건 동시 진행
  2. T5-1 완료 확인 후 → T5-2 exp-expert 실행
  3. T5-2 + T5-3 완료 후 → T5-4 exp-expert 자기 평가