결측치란
존재하지 않는 데이터이다.
결측치 처리 방법
수치형 데이터
1. 평균값 대치 : 대표적인 방법
2. 중앙값 대치 : 평균값에 대표성이 없다면 중앙값을 이용
범주형 데이터
1. 최빈값 대치
사용하는 함수
1. 간단한 삭제 & 대치
- df.dropna(axis = 0): 행 삭제
- df.dropna(axis = 1): 열 삭제
- df.fillna(value): 특정 값으로 대치(평균, 중앙, 최빈값)
2. 알고리즘을 이용
- sklearn.impute.SimpleImputer:평균, 중앙, 최빈값으로 대치
(SimpleImputer.statistics_ : 대치한 값 확인 가능)
- sklearn.impute.IterativeImputer: 다변량대치(회귀 대치)
- sklearn.impute.KNNImputer: KNN 알고리즘을 이용한 대치