Home | Print | Q/A | Guest | NewsLetter
Display context of search results Case-sensitive searching
인놈소개/2010-03-19 › PostgreSQLTutorial이상치제거방법숙단계4/5도달하기 › 통계학적인세분화방법2가지 › 평균
Database System
Data Warehouse
Data Analysis
Operating System
Open Source
Enterprise Architecture
Software Engineering
Process
Working Smart

SQL Server
PostgreSQL
Oracle
DB2
Teradata
MySQL
Performance Tuning
Programming

Link
Philosophy
Tools
Misc
주인놈
_
_
SideBar Edit

Contents

1 개요
2 평균은 표준편차와 같이 봐야 한다
3 평균과 표준편차를 알면 자료의 분포도 예상 할 수 있다
4 R과 정규분포


작성중..
가중편균
변동계수
체비셰프의 정리
표준화(Z값)

1 개요 #

아마도 현업에서 가장 많이 쓴는 통계는 합계(sum)[1], 개수(count), 평균(mean)이 아닌가 싶다. 평균은 "합계/개수" 이므로 합계와 개수만 알면 계산해서 알 수 있다. 일반적인 사람들이 생각하는 평균은 여기까지인 것 같다. 하지만 평균은 매우 많은 의미를 가지고 있다. 평균의 의미는 다음과 같이 여러 가지로 표현된다.

  • 데이터 집합에서의 대표값
  • 기하학적으로 봤을 때는 무게 중심

데이터 집합에서의 대표값[2]은 그 집단을 하나의 숫자로 표현 할 수 있다는 것을 말한다. 물론 대표값은 여러 가지가 있지만 평균은 우열을 가리는데 사용된다. 우선 다음의 표를 보자.

게임 고객수 평균이용시간(분)
A 1,000 30
B 1,000 35
* 단, 고객은 20~25세, 대학생 대상

집단A의 평균 이용시간은 30분, 집단B는 35분이다. 즉, 게임B가 더 우수한 게임이라고 할 수 있다.

기하학적으로 봤을 때는 무게중심이다. 그러므로 평균이 모든 숫자를 정렬했을 때의 정중앙에 온다고 할 수는 없다. 일반적으로 통계의 실수를 이야기 할 경우 평균연봉, 평균점수의 예를 든다. 평균점수가 높다고 해당 집단이 모두 공부를 잘한다고 할 수는 없는 노릇이다. 어쨌든 기하학적으로 봤을 때는 무게중심이다.

mean_geo.jpg

이해를 돕기 위해 문제를 풀어보자. 다음의 그림에서 이 숫자들의 평균은 몇인가? 5.5다.

mean_geo02.jpg

그렇다면 여기서 3과 8을 빼면 평균은?

mean_geo03.jpg

바로 대답하지 못했다면 아직 이해를 덜 한것이므로 곰곰히 더 생각해보라.

2 평균은 표준편차와 같이 봐야 한다 #


3 평균과 표준편차를 알면 자료의 분포도 예상 할 수 있다 #





4 R과 정규분포 #

x=seq(-3, 3, length=200)
y=dnorm(x, mean=0, sd=1)
plot(x, y, type="l", col="blue")

sum(x[ x <= 1.0]) # -3 ~ -1까지의 합한(적분한) 값
x=seq(-3,-1.0,length=100)
y=dnorm(x,mean=0,sd=1)
polygon(c(-3,x,-1.0),c(0,y,0),col="gray")

norm.jpg

EditText|Print|FindPage|DeletePage|LikePages|http://www.databaser.net|last modified 2010-03-08 17:36:33