좋은 피처 설계
좋은 피처 설계
좋은 피처 설계
- 피처가 많다고 항상 좋은 것이 아님
- 오히려 피처가 많을 수록 데이터 누수 가능성 및 과적합 가능성이 높음
- 메모리가 많이 소요되며, 레이턴시가 증가함
- 쓸모없는 피처는 결국 기술 부채로 이어짐
- 모델에 대한 피처의 중요도와 본 적 없는 데이터의 일반화가 중요
- 피처 중요도를 잘 측정하기
- 측정하는 가장 좋은 방법은 XGBoost의 내장 피처 중요도 함수를 이용하는 것
- 상위 n개의 중요한 피처만 사용하면 효율을 높일 수 있음
- 피처 일반화하기
- 본 적 없는 테스트 데이터에 대해 정확한 예측이 중요하므로, 일반화 성능이 중요
- Coverage(피처 값의 존재 비율)가 높을 수록 좋음
- 훈련 데이터에 나타나는 피처의 분포와, 테스트 데이터에 나타나는 피처의 분포가 동일해야 함
References
- 칩 후옌 - 머신 러닝 시스템 설계