| Home | Print | Q/A | Guest | NewsLetter |
|
[edit]
1 이상치란? #이상치(이상점, outlier)란, 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값을 말한다. 어떤 의사결정을 하는데 필요한 데이터를 분석할 경우 이렇게 이상한 값들에 의해서 의사결정에 영향을 미칠 수 있으므로 제거하는 것이 좋다.
[edit]
2 사분위수 #
IF 값 < (제1사분위수 - 1.5*사분위범위) OR (값 > 제3사분위수 + 1.5*사분위범위) THEN RETURN 이상치 ELSE RETURN 보통치 [edit]
3 정규분포 #이상치는 정말 이상한 값이다. 위의 사분위수로 계산되는 것이 꼭 이상치는 아니다. 정규분포를 이용하여 어느 정도의 값이 이상치인지 직접 판단하여 이상치를 제거할 수도 있다. 일반적으로는 (m - 2σ) ~ (m + 2σ) 구간을 벗어나는 값을 이상치로 판단하는 것이 좋다.(σ: 표준편차, m: 평균)
![]() [edit]
6 표준정규분포 #z = (x - 평균) / 표준편차
![]() 출처: http://dkworld.tistory.com/74 표준정규분포표-columpol.xls 출처: http://blog.naver.com/columpol?Redirect=Log&logNo=150019486215 |
|