Fundamental Notes/EDA

[EDA] 09. 03. 10 - CH2 Stem-and leaf plot

콩콩댕 2009. 3. 11. 01:49
반응형
줄기그림
줄기그림의 목적 : 분포의 대략적인형태를 보기위해 작성
줄기와 잎으로 구성
-줄기 : 각 가로줄
-잎 : 각 가로줄의 숫자
-깊이 : 상향순위와 하향순위 중 작은 값



1. 줄기그림 그리기
54 = 5(줄기) * 10 + 4(잎)
앞자리수(leading digits)를 줄기로 택하여 각각 독립된 line에 할당
각 줄기에 해당하는 line에 각 자료값의 뒷자리수(trailing digits)를 차례로 기록
'depth'를 줄기 옆 왼쪽에 적어준다.
단, 자료의 중위수를 포함하는 줄기에는 깊이대신 도수를 괄호 안에 기입



2. 줄기-잎 그림에서 관찰가능한 자료의 특성
자료의 대칭성 여부//자료의 분포가 대칭적인가 아닌가
자료의 범위와 산포//자료가 몇점부터 몇점까지 있나. 퍼져있나 아닌가
특이점(Outlier) 존재 여부//지나치게 동떨어진 부분
집중도가 높은 구간이 있는지 여부//자료가 많이 나오는 부분의 범위
gap 존재 여부 파악//자료가 아예 없거나 부분적으로 점수준 단위로 이어진 부분
군집의 여부//덩어리가 몇개인가

* 다른 각도에서 Data 관찰
줄기수 줄임 - 볼우리 수 감소, 유효숫자 상실
줄기수 늘임 - 봉우리 수 증가




3. 줄기의 수 변경
줄기의 수를 줄이는 방법

ex) 과제물 미제출에 대한 줄기 잎 그림 그리기 & 줄이기
0 | 0 0  
1 | 0 5 
2 | 1 3 3 3 4 5 8 9 
3 | 0 3 5 5  
4 | 1 3 3 7 8
5 | 1 2 2 3 3 3 4 4 6
6 | 4
7 | 3
8 | 2 9
                      * | 0 0 1 1
T | 2 2 2 2 2 2 2 2 3 3 3 3
F | 4 4 4 4 4 5 5 5 5 5 5 5 5 5
S | 6 7
.  | 8 8

줄기의 수를 늘리는 방법
0 | 0 0
1 | 0 5
2 | 1 3 3 3 4 5 8 9
3 | 0 3 5 5
4 | 1 3 3 7 8
5 | 1 2 2 3 3 3 4 4 6
6 | 4
7 | 3
8 | 2 9  
   0*| 0 0
0  |
1*| 0
1  | 5
2*| 1 3 3 3 4
2  | 5 8 9
3*| 0 3
3 | 5 5
4*| 1 3 3
4 | 7 8
5*| 1 2 2 3 3 3 4 4
5 | 6
6*| 4
6 |
7*| 3
7 |
8*| 2
8 | 9  

혼합형 잎




4. 줄기 수에 관한 공식
자료의 수 : n
적절한 줄기 수 : L
- 스터지스의 공식
L = [1+log2n]

- 벨만의 공식
L = [2rootn]

- 딕슨-크론말의 공식
L ≤ [10logn]




5. 히스토그램과 비교
공통점 : 외형 비슷
차이점
줄기잎그림
구간내 자료가 숫자
줄기 수 증가 감소 때 기존 줄기잎그림으로 가능
구간폭 임의 설정 가능
히스토그램
숫자 아님
원자료 없으면 구간 폭 증가 불가능
구간폭 임의 설정 불가능