본 캠프 TIL

3월10일 TIL 지각 , 과적합 여부 판별 확인하는 방법

meoca1257 2025. 3. 10. 20:34

과적합 여부 판별 

 

1. 교차 검증 (Cross Validation)

K-Fold 교차 검증을 수행하여 모델이 일관된 성능을 보이는지 확인하세요.
특히, 테스트 R²가 교차 검증 결과보다 높다면 과적합 가능성이 있습니다.

만약 교차 검증 R² 값이 현재 테스트 R²보다 낮다면 과적합 가능성이 큽니다.

 

2. 학습 곡선 (Learning Curve)

학습 데이터 크기를 점진적으로 증가시키며, 훈련 및 검증 R²를 비교하여 과적합 여부를 분석합니다.

과적합이 있다면?

  • 훈련 R²는 98% 이상이지만, 검증 R²는 떨어지는 패턴이 보임.
  • 데이터가 많아질수록 검증 R²가 증가하지 않는다면 과적합 가능성 높음.
  • 하지만 훈련 데이터에서 1.0에 가까운 R² 값이 나온다는 것은 데이터에 너무 맞춰진 가능성이 있음 → 잔차 분석 필요!

 

3. 피처 중요도 분석

랜덤 포레스트와 XGBoost는 모두 피처 중요도(Feature Importance) 를 제공하므로, 특정 피처에 과하게 의존하는지를 확인할 수 있습니다.

특정 소수의 변수에만 과도하게 의존하는 경우, 모델이 해당 변수에 과적합했을 가능성이 큽니다.

 

 

4. 잔차 분석 (Residual Analysis)

예측값과 실제값의 차이를 확인하여, 패턴이 있는지 분석합니다.

 

  • 정상적인 경우: 잔차가 평균 0을 중심으로 정규분포를 이룸.
  • 과적합 가능성이 있는 경우:
    • 특정 패턴이 반복됨.
    • 특정 구간에서 예측값이 과도하게 높거나 낮음.

 

5. 모델 단순화 (Regularization)

XGBoost의 경우 max_depth, min_child_weight, gamma, subsample, colsample_bytree 등을 조정하여 모델 복잡도를 줄일 수 있습니다.

  • 과적합이 의심될 경우 트리 깊이를 줄이고 정규화 적용하면 개선될 수 있습니다.

 

6. 새로운 데이터셋에서 평가

가능하면 완전히 새로운 데이터셋(예를 들어, 최근 데이터)으로 모델을 평가해봐.

  • 기존 테스트 데이터에서도 성능이 높았지만, 새로운 데이터에서 성능이 급격히 낮아지면 과적합 가능성이 큼.

 

결론

 

  • 교차 검증을 통해 과적합 확인 → 테스트 R²가 교차 검증보다 높으면 과적합 가능성.
  • 학습 곡선을 확인 → 훈련 R²와 검증 R² 차이가 크면 과적합.
  • 피처 중요도 분석 → 소수의 변수에 의존하면 과적합 가능성.
  • 잔차 분석 → 패턴이 있다면 과적합.
  • 모델 단순화 → 트리 깊이 및 정규화 조정.

 

 

'본 캠프 TIL' 카테고리의 다른 글

3월12일 TIL 코드카타  (0) 2025.03.12
3월 11일 TIL 팀 프로젝트 완  (0) 2025.03.11
3월 7일 TIL 코드카타  (0) 2025.03.07
3월5일 TIL 코드카타  (0) 2025.03.05
3월4일 TIL 코드카타  (0) 2025.03.04