Imputation
Imputation
Imputation
- 데이터에서 발생한 결측값을 대체하는 방법을
imputation
이라고 함 - 2차원 데이터에 대해, 다음과 같은 방법으로 결측치를 대체할 수 있음
- 결측값을 무시하고 알고리즘이 누락된 데이터를 처리하게 놔둠
- 행 혹은 특정 열을 제거하는 방법, 중요 데이터 유실 가능
- 열을 기준으로 평균 / 중앙값 사용, 숫자만 가능
- 열을 기준으로 최빈값 사용, 숫자가 아닌 데이터에서도 사용 가능
- 결측치를 0 혹은 특정 상수값으로 대체
- K-NN을 통해 가장 가까운 이웃의 값으로 대체
- MICE (하기 설명)
- 딥 러닝을 활용해 누락된 열을 예측해서 대체
- MICE
- 누락된 값을 여러 번 채우는 방식으로 동작
- Imputation : 우선 imputation을 거친 여러 데이터셋을 만듦
- Analysis: 해당 데이터셋들을 분석함
- Pooling: 데이터셋들의 결과를 합침
- 불확실성이 줄어드는 효과가 있음
References
- https://dining-developer.tistory.com/19