결측치 2

데이터 전처리 - 결측치

결측치란존재하지 않는 데이터이다. 결측치 처리 방법수치형 데이터1. 평균값 대치 : 대표적인 방법2. 중앙값 대치 : 평균값에 대표성이 없다면 중앙값을 이용 범주형 데이터1. 최빈값 대치 사용하는 함수1. 간단한 삭제 & 대치    - df.dropna(axis = 0): 행 삭제    - df.dropna(axis = 1): 열 삭제    - df.fillna(value): 특정 값으로 대치(평균, 중앙, 최빈값) 2. 알고리즘을 이용    - sklearn.impute.SimpleImputer:평균, 중앙, 최빈값으로 대치      (SimpleImputer.statistics_ : 대치한 값 확인 가능)    - sklearn.impute.IterativeImputer: 다변량대치(회귀 대치)   ..

카테고리 없음 2024.08.13

데이터 전처리 - 이상치 탐색

1. 이상치란- 관측된 데이터 범위에서 많이 벗어난 아주 작은 값 또는 아주 큰 값- 주관적인 값이기 때문에 데이터를 삭제할지 말지는 분석가의 몫- 정보 손실 문제가 있기 때문에 항상 삭제해야하는 것은 아님 2. ESD(extreme studentized deviation)-데이터가 정규분포를 따를 때 평균에서 표준편차의 3배 이상 떨어진 값- 데이터가 정규분포를 따르지 않을 때 샘플 크기가 작고 데이터가 비대칭이면 제한된다.  ESD를 이용한 이상치 처리import numpy as npmean = np.mean(data)std = np.std(data)upper_limit = mean + 3*stdlower_limit = mean - 3*stdupper_limit보다 높고 lower_limit보다 낮은..

카테고리 없음 2024.08.13