카테고리 없음

데이터 전처리 - 결측치

DorYi 2024. 8. 13. 13:27

결측치란

존재하지 않는 데이터이다.

 

결측치 처리 방법

수치형 데이터

1. 평균값 대치 : 대표적인 방법

2. 중앙값 대치 : 평균값에 대표성이 없다면 중앙값을 이용

 

범주형 데이터

1. 최빈값 대치

 

사용하는 함수

1. 간단한 삭제 & 대치
    - df.dropna(axis = 0): 행 삭제
    - df.dropna(axis = 1): 열 삭제
    - df.fillna(value): 특정 값으로 대치(평균, 중앙, 최빈값)

 

2. 알고리즘을 이용
    - sklearn.impute.SimpleImputer:평균, 중앙, 최빈값으로 대치
      (SimpleImputer.statistics_ : 대치한 값 확인 가능)
    - sklearn.impute.IterativeImputer: 다변량대치(회귀 대치)
    - sklearn.impute.KNNImputer: KNN 알고리즘을 이용한 대치