DorYi

  • 홈
  • 태그
  • 방명록

이상치 1

데이터 전처리 - 이상치 탐색

1. 이상치란- 관측된 데이터 범위에서 많이 벗어난 아주 작은 값 또는 아주 큰 값- 주관적인 값이기 때문에 데이터를 삭제할지 말지는 분석가의 몫- 정보 손실 문제가 있기 때문에 항상 삭제해야하는 것은 아님 2. ESD(extreme studentized deviation)-데이터가 정규분포를 따를 때 평균에서 표준편차의 3배 이상 떨어진 값- 데이터가 정규분포를 따르지 않을 때 샘플 크기가 작고 데이터가 비대칭이면 제한된다.  ESD를 이용한 이상치 처리import numpy as npmean = np.mean(data)std = np.std(data)upper_limit = mean + 3*stdlower_limit = mean - 3*stdupper_limit보다 높고 lower_limit보다 낮은..

카테고리 없음 2024.08.13
이전
1
다음
더보기
프로필사진

DorYi

데이터 분석가로 한 발짝

  • 분류 전체보기 (82)
    • 프로그래머스 - 파이썬 (11)
    • 프로그래머스 - SQL (35)
    • 문과생의 파이썬 (7)
    • 문과생의 SQL (2)
    • 새싹 데이터분석가의 성장 일기 (7)
    • 스터디 (10)
    • 자격증 (2)

Tag

결측치, Python, date_format, 통계, 데이터분석, mysql, 제2종오류, 서브쿼리, SQL, sqlwith, pandas, join, adsp요약본, AdSP, 파이썬, sqlunion, wherein, 판다스, 프로그래머스, sqlmonth,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바