Feature Engineering Methods
Feature Engineering Methods
Feature Engineering Methods
- Feature engineering에는 다음과 같은 방법 존재
- 결측값 처리
- 결측이 발생한 행 / 열 삭제
- 결측값 대치 (Imputation)
- 스케일링
- 각 feature를 유사한 범위로 스케일링 하는 행위
- 값을 [0, 1] 사이로 조정하는 min max 스케일링 방법 존재
- 데이터가 정규 분포를 따르는 경우, 표준화를 통해 평균이 0, 표준편차가 1인 표준 정규 분포를 따르도록 정규화 가능
- Feature가 비대칭 분포를 따르는 경우, 로그 변환을 적용할 수 있음
- 그러나 이 방법은 모든 경우에 동작하지는 않음
- 이산화
- 연속된 데이터를 특정 범주들로 나누는 행위
- 도움이 되는 경우가 많지는 않음
- 데이터를 3000 미만, 3000 이상으로 나누면, 2999와 3000의 차이는 1과 99999999999 의 차이와 동일
- 범주 경계를 선택하기 어려우며, 도메인 지식을 사용해야 할 수도 있음
- 범주형 피쳐 인코딩
- 성별, 브랜드 등 범주형 피쳐를 처리하는 방법
- 범주가 일정한 경우에는 큰 문제가 없지만, 범주가 변하는 경우에는 다루기 어려움
- 한 가지 트릭은 Hashing을 사용하는 것
- Feature 교차
- 둘 이상의 feature를 결합해 새로운 feature 생성
- 변수 간의 비선형 관계를 모델링 시 유용
- 위치 임베딩
References
- 칩 후옌 - 머신 러닝 시스템 설계