Home | Print | Q/A | Guest | NewsLetter
Display context of search results Case-sensitive searching
통계문제풀이Vector인놈소개/2010-03-22 › 인놈소개/2010-03-19 › PostgreSQLTutorial › 이상치제거방법
Database System
Data Warehouse
Data Analysis
Operating System
Open Source
Enterprise Architecture
Software Engineering
Process
Working Smart

SQL Server
PostgreSQL
Oracle
DB2
Teradata
MySQL
Performance Tuning
Programming

Link
Philosophy
Tools
Misc
주인놈
_
_
SideBar Edit

Contents

1 이상치란?
2 사분위수
3 정규분포
4 앤드류스 그림
5 마하라노비스 거리
6 표준정규분포
7 참고: 6-Sigma의 통계적 의미


1 이상치란? #

이상치(이상점, outlier)란, 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값을 말한다. 어떤 의사결정을 하는데 필요한 데이터를 분석할 경우 이렇게 이상한 값들에 의해서 의사결정에 영향을 미칠 수 있으므로 제거하는 것이 좋다.

2 사분위수 #

  • 0사분위수(Q0): 최소값
  • 1사분위수(Q1): 최소값 ~ 25% 번째 값
  • 2사분위수(Q2): 중앙값
  • 3사분위수(Q3): 중앙값 ~ 75% 번째 값
  • 4사분위수(Q4): 최대값

이상치는 보통 다음과 같이 계산된다. 여기서 '사분위범위'란 Q3 - Q1 구간을 말하며, 이 구간에는 50%의 데이터들이 있다.
IF 값 < (제1사분위수 - 1.5*사분위범위) OR (값 > 제3사분위수 + 1.5*사분위범위) THEN
  RETURN 이상치
ELSE
  RETURN 보통치

3 정규분포 #

이상치는 정말 이상한 값이다. 위의 사분위수로 계산되는 것이 꼭 이상치는 아니다. 정규분포를 이용하여 어느 정도의 값이 이상치인지 직접 판단하여 이상치를 제거할 수도 있다. 일반적으로는 (m - 2σ) ~ (m + 2σ) 구간을 벗어나는 값을 이상치로 판단하는 것이 좋다.(σ: 표준편차, m: 평균)
normal_distribution.jpg

4 앤드류스 그림 #

푸리에 급수를 이용한 앤드류스 그림으로 이상치를 찾아낼 수도 있다. [http]앤드류스 그림 문서를 참고하라.

5 마하라노비스 거리 #

마하라노비스 거리라는 것을 이용해서 이상치를 찾을 수도 있다. [http]마하라노비스 거리문서를 참고하라.

6 표준정규분포 #

z = (x - 평균) / 표준편차

z.jpg
출처: http://dkworld.tistory.com/74

표준정규분포표-columpol.xls 출처: http://blog.naver.com/columpol?Redirect=Log&logNo=150019486215

7 참고: 6-Sigma의 통계적 의미 #

  • 1σ: 68.3% - 불량률 : 32%
  • 2σ: 95.4% - 불량률 : 5%
  • 3σ: 99.7% - 불량률 : 0.3%
  • 4σ: 99.99% - 불량률 : 0.01%
  • 5σ: 99.9999% - 불량률 : 0.0001%
  • 6σ: 99.99999999% -불량률 : 0.000000001%

EditText|Print|FindPage|DeletePage|LikePages|http://www.databaser.net|last modified 2010-03-08 17:28:14