판다스 3

데이터 전처리 - 결측치

결측치란존재하지 않는 데이터이다. 결측치 처리 방법수치형 데이터1. 평균값 대치 : 대표적인 방법2. 중앙값 대치 : 평균값에 대표성이 없다면 중앙값을 이용 범주형 데이터1. 최빈값 대치 사용하는 함수1. 간단한 삭제 & 대치    - df.dropna(axis = 0): 행 삭제    - df.dropna(axis = 1): 열 삭제    - df.fillna(value): 특정 값으로 대치(평균, 중앙, 최빈값) 2. 알고리즘을 이용    - sklearn.impute.SimpleImputer:평균, 중앙, 최빈값으로 대치      (SimpleImputer.statistics_ : 대치한 값 확인 가능)    - sklearn.impute.IterativeImputer: 다변량대치(회귀 대치)   ..

카테고리 없음 2024.08.13

데이터 전처리 - 이상치 탐색

1. 이상치란- 관측된 데이터 범위에서 많이 벗어난 아주 작은 값 또는 아주 큰 값- 주관적인 값이기 때문에 데이터를 삭제할지 말지는 분석가의 몫- 정보 손실 문제가 있기 때문에 항상 삭제해야하는 것은 아님 2. ESD(extreme studentized deviation)-데이터가 정규분포를 따를 때 평균에서 표준편차의 3배 이상 떨어진 값- 데이터가 정규분포를 따르지 않을 때 샘플 크기가 작고 데이터가 비대칭이면 제한된다.  ESD를 이용한 이상치 처리import numpy as npmean = np.mean(data)std = np.std(data)upper_limit = mean + 3*stdlower_limit = mean - 3*stdupper_limit보다 높고 lower_limit보다 낮은..

카테고리 없음 2024.08.13

[Pandas] 원하는 데이터 선택하기

loc (location).loc [행, 컬럼] : 이름으로 선택하기- 레이블 기반의 인덱스 사용 iloc (index location).iloc [행, 컬럼] : 인덱스 번호로 선택하기- 정수 기반의 인덱스 사용 컬럼 전체를 선택하는 경우data.loc [:, '컬럼명'] #컬럼 1개 선택data['컬럼명'] #컬럼 1개 선택data[['컬럼명1', '컬럼명2', '컬럼명3']] #컬럼 여러개 선택, 순서 지정할 수 있음 2개 이상의 셀을 선택하는 경우data.loc ['행이름', ['컬럼명1', '컬럼명2]] #2개의 컬럼명을 출력할 때data.loc ['행이름1', '행이름2'], '컬럼명1'] #2개의 행이름을 출력할 때data.loc ['행이름', '컬럼명1' :] ..