Home | Print | Q/A | Guest | NewsLetter
Display context of search results Case-sensitive searching
Database System
Data Warehouse
Data Analysis
Operating System
Open Source
Enterprise Architecture
Software Engineering
Process
Working Smart

SQL Server
PostgreSQL
Oracle
DB2
Teradata
MySQL
Performance Tuning
Programming

Link
Philosophy
Tools
Misc
주인놈
_
_
SideBar Edit

Contents

1 변수의 형태
2 측정척도의 형태
3 통계표와 그래프
4 도수분포표(히스토그램)
5 스튜아지스 방법


1 변수의 형태 #

  • 자료(data)란, 관측치(observation)들의 집합.
  • 변수(variable)란, 시간에 따라 변하는 어떤 특성 또는 특정 시점에서 다른 사람이나 물체간에 변하는 어떤 특성을 말한다. (= 변량)
  • 질적 변수와 양적 변수
    • 질적 변수
      • 특성상 수치로 나타내거나 또는 수치로 나타낼 수 없는 변수
      • 성별, 종교, 직업 등
      • 질적 변수에 대한 측정자료를 질적 자료, 정성적 자료 또는 범주적 자료(categorical data)라고 함
      • 명목, 서열 자료가 포함됨.
      • 언제나 이산적 자료
    • 양적 변수
      • 특성상 수치로 나타낼 수 있는 변수
      • 예금잔액, 자녀수, 체중 등
      • 양적 변수에 대한 측정자료를 양적 자료 또는 정량적 자료라고 함
      • 양적 변수의 분류
        • 연속적 변수(continuous variable)
        • 이산적 변수(discrete variable) -> 값 사이에 Gap을 갖게 됨
      • 구간자료, 비율자료가 포함됨
  • 단변수와 다변수
    • 관측 대상이 되는 각 기본단위가 하나의 변수를 갖는 자료. 변수가 하나이기 때문에 자료의 대표치, 기본단위들의 동질성, 이상치(oulier)의 존재여부 등에 관한 특성을 요약하는 통계분석 방법이 사용됨.
    • 관측 대상이 되는 각 기본단위가 여러개의 변수를 갖는 자료. 변수가 두 개 이상이므로 단변수 자료에서 얻는 특성 이외에 변수간의 관계, 변수간의 밀접성, 한 변수로부터 다른 변수의 값 예측 등의 밝히는 통계분석방법이 사용됨.

예제(속성들이 좀 꾸졌지만.. 그려려니..)
종업원인종직위근무연수연봉
홍길동과장56
장길산대리33
개소문부장75
스탈린대리21
마돈나과장63

  • 기본단위는? 홍길동, 장길산, 개소문, 스탈린, 마돈나
  • 변수는? 종업원, 인종, 성, 직위, 근무연수, 연봉
  • 질적? 양적?
    • 질적변수: 인종, 성, 직위
    • 양적변수: 근무연수, 연봉 (모두 연속적)
  • 직위의 모집단? 부장, 과장, 대리
  • 자료의 수는? 25
  • 다변량 자료

2 측정척도의 형태 #

4가지 형태
  • 명목척도(nominal scale)
    • 값은 범주(category) 또는 레이블(label)
    • 성별, 이메인인증여부, 직위 등
    • '=' 또는 '<>'만 가지고 비교 가능
  • 서열척도(ordinal scale)
    • 값은 측정 대상간의 높/낮, 큼/작음, 선/후 등의 서열 순서를 가짐
    • 학점, 단위(KB, MB, TB, PB..) 등
    • '=', '<>', '>=', '<=' 연산 가능
  • 구간척도(interval scale)
    • 값들이 일정한 차이만큼 일정한 크기를 가진다.(명목, 서열 자료의 특성을 가짐)
    • 온도, 지능지수, 학년 등
    • "주의" 자료들간의 차이(간격)가 의미 있을 뿐이지 차이의 비율은 의미가 없다. (온도가 서울 15도, 부산 30도 라고 해도 부산이 2배더 덥다고 할 수 없다) -> 상대적인 위치만 나타낼 뿐
    • '=', '<>', '>=', '<=', '+', '-' 연산 가능
  • 비율척도(ratio scale)
    • 명목, 서열, 구간 자료의 모든 특성을 가질 뿐만 아니라 절대적 위치를 나타내는 원점(0)을 가지기 때문에 두 측정치 사이의 비율을 계산할 수 있다.
    • A의 월급이 100원이고, B의 월급이 200원이면 B의 월급이 A보다 2배더 많다고 이야기 할 수 있다.
    • * '=', '<>', '>=', '<=', '+', '-', '/', '*' 연산 가능
mesurement_scale.jpg

시계열자료와 횡단면자료
  • 시계열자료(time series data), 시간의 순서대로 기록
  • 횡단면자료(cross sectional data), 특정 시점에 측정하여 기록

3 통계표와 그래프 #

도수분포표
  • 자료를 한 변수가 가질 수 있는 값들의 계급 또는 범주로 나누고 각 계급에 속하는 측정치의 도수를 나타내는 통계표
  • 도수(freqeuncy), 각 계급에 해당되는 값의 개수
  • 상대도수(relative freqeuncy), 각 계급에 속한 도수가 총도수에서 차지하는 비율

학년데이터
학년도수상대도수
1학년10.1
2학년40.4
3학년30.3
4학년20.2
총도수101.0

4 도수분포표(히스토그램) #

어떤 데이터가 전체 중에 차지하는 위치를 알아내기 위해서는 전체 경향을 파악하는 일이 매우 중요하다. 전체 경향을 파악하는데는 도수분포표가 매우 유용하다. 도수분포표는 다음과 같은 방법으로 만들 수 있다.

  1. 데이터의 최대, 최소값을 구한다.
  2. 자료의 크기에 따라 적당한 계급의 수를 정한다.(이상치는 제거한다.(이상치 제거 방법))
  3. 중복되지 않게 계급의 크기를 정한다.
  4. 각 계급에 속하는 도수(데이터 수)를 구한다.
  5. 계급은 연속으로 표시한다.
  6. 상대도수를 구한다. (상대도수 = 해당 계급의 도수 / 전체 도수)

참고:
엑셀2007에서 막대 그래프와 꺽은선 그래프를 동시에 표현하고자 한다면, 우선 2개의 계열을 모두 막대 그래프로 표시한 후, 마우스 오른 클릭하여 다음 그림과 같이 [계열 차트 종류 변경] 을 클릭하여 꺽은선 그래프로 변경한다.
excel01.jpg

다음의 변경된 그림이다.
excel02.jpg

5 스튜아지스 방법 #

스튜아지스의 방법은 통계학 책의 거의 처음 부분에 나오는 내용이다. 스튜아지스는 계급의 수[1]를 결정하는 방법으로 다음과 같은 공식을 만들었다. 히스토그램을 만들때 유용하다.

  • 계급의 수 k = 1 + (log10N / log102) (N; 자료의 수) = 1 + (LOG10(N) / LOG10(2))
  • 계급의 범위 R = (Max값 - Min값) / k

분류하는 방법은 위의 공식을 이용하여 다음과 같은 순서로 구하면 된다.

  1. 데이터의 총 개수, Max값, Min값을 구한다. 이 때 Max값, Min값을 구할 때는 이상치를 제거하는 것이 좋다.
  2. 스튜아지스의 방법을 이용하여 계급의 수(k)를 구한다.
  3. 윗 단계에서 구해진 계급의 수 k를 이용하여 값의 범위를 구한다.
  4. 구해진 범위로 데이터를 구분한다.

EditText|Print|FindPage|DeletePage|LikePages|http://www.databaser.net|last modified 2010-03-08 17:34:50