반응형
줄기그림
줄기그림의 목적 : 분포의 대략적인형태를 보기위해 작성
줄기와 잎으로 구성
-줄기 : 각 가로줄
-잎 : 각 가로줄의 숫자
-깊이 : 상향순위와 하향순위 중 작은 값
1. 줄기그림 그리기
54 = 5(줄기) * 10 + 4(잎)
앞자리수(leading digits)를 줄기로 택하여 각각 독립된 line에 할당
각 줄기에 해당하는 line에 각 자료값의 뒷자리수(trailing digits)를 차례로 기록
'depth'를 줄기 옆 왼쪽에 적어준다.
단, 자료의 중위수를 포함하는 줄기에는 깊이대신 도수를 괄호 안에 기입
2. 줄기-잎 그림에서 관찰가능한 자료의 특성
자료의 대칭성 여부//자료의 분포가 대칭적인가 아닌가
자료의 범위와 산포//자료가 몇점부터 몇점까지 있나. 퍼져있나 아닌가
특이점(Outlier) 존재 여부//지나치게 동떨어진 부분
집중도가 높은 구간이 있는지 여부//자료가 많이 나오는 부분의 범위
gap 존재 여부 파악//자료가 아예 없거나 부분적으로 점수준 단위로 이어진 부분
군집의 여부//덩어리가 몇개인가
* 다른 각도에서 Data 관찰
줄기수 줄임 - 볼우리 수 감소, 유효숫자 상실
줄기수 늘임 - 봉우리 수 증가
3. 줄기의 수 변경
줄기의 수를 줄이는 방법
ex) 과제물 미제출에 대한 줄기 잎 그림 그리기 & 줄이기
줄기의 수를 늘리는 방법
혼합형 잎
4. 줄기 수에 관한 공식
자료의 수 : n
적절한 줄기 수 : L
- 스터지스의 공식
L = [1+log2n]
- 벨만의 공식
L = [2rootn]
- 딕슨-크론말의 공식
L ≤ [10logn]
5. 히스토그램과 비교
공통점 : 외형 비슷
차이점
줄기잎그림
구간내 자료가 숫자
줄기 수 증가 감소 때 기존 줄기잎그림으로 가능
구간폭 임의 설정 가능
히스토그램
숫자 아님
원자료 없으면 구간 폭 증가 불가능
구간폭 임의 설정 불가능
줄기그림의 목적 : 분포의 대략적인형태를 보기위해 작성
줄기와 잎으로 구성
-줄기 : 각 가로줄
-잎 : 각 가로줄의 숫자
-깊이 : 상향순위와 하향순위 중 작은 값
1. 줄기그림 그리기
54 = 5(줄기) * 10 + 4(잎)
앞자리수(leading digits)를 줄기로 택하여 각각 독립된 line에 할당
각 줄기에 해당하는 line에 각 자료값의 뒷자리수(trailing digits)를 차례로 기록
'depth'를 줄기 옆 왼쪽에 적어준다.
단, 자료의 중위수를 포함하는 줄기에는 깊이대신 도수를 괄호 안에 기입
2. 줄기-잎 그림에서 관찰가능한 자료의 특성
자료의 대칭성 여부//자료의 분포가 대칭적인가 아닌가
자료의 범위와 산포//자료가 몇점부터 몇점까지 있나. 퍼져있나 아닌가
특이점(Outlier) 존재 여부//지나치게 동떨어진 부분
집중도가 높은 구간이 있는지 여부//자료가 많이 나오는 부분의 범위
gap 존재 여부 파악//자료가 아예 없거나 부분적으로 점수준 단위로 이어진 부분
군집의 여부//덩어리가 몇개인가
* 다른 각도에서 Data 관찰
줄기수 줄임 - 볼우리 수 감소, 유효숫자 상실
줄기수 늘임 - 봉우리 수 증가
3. 줄기의 수 변경
줄기의 수를 줄이는 방법
ex) 과제물 미제출에 대한 줄기 잎 그림 그리기 & 줄이기
0 | 0 0 1 | 0 5 2 | 1 3 3 3 4 5 8 9 3 | 0 3 5 5 4 | 1 3 3 7 8 5 | 1 2 2 3 3 3 4 4 6 6 | 4 7 | 3 8 | 2 9 |
→ | * | 0 0 1 1 T | 2 2 2 2 2 2 2 2 3 3 3 3 F | 4 4 4 4 4 5 5 5 5 5 5 5 5 5 S | 6 7 . | 8 8 |
줄기의 수를 늘리는 방법
0 | 0 0 1 | 0 5 2 | 1 3 3 3 4 5 8 9 3 | 0 3 5 5 4 | 1 3 3 7 8 5 | 1 2 2 3 3 3 4 4 6 6 | 4 7 | 3 8 | 2 9 |
→ | 0*| 0 0 0 | 1*| 0 1 | 5 2*| 1 3 3 3 4 2 | 5 8 9 3*| 0 3 3 | 5 5 4*| 1 3 3 4 | 7 8 5*| 1 2 2 3 3 3 4 4 5 | 6 6*| 4 6 | 7*| 3 7 | 8*| 2 8 | 9 |
혼합형 잎
4. 줄기 수에 관한 공식
자료의 수 : n
적절한 줄기 수 : L
- 스터지스의 공식
L = [1+log2n]
- 벨만의 공식
L = [2rootn]
- 딕슨-크론말의 공식
L ≤ [10logn]
5. 히스토그램과 비교
공통점 : 외형 비슷
차이점
줄기잎그림
구간내 자료가 숫자
줄기 수 증가 감소 때 기존 줄기잎그림으로 가능
구간폭 임의 설정 가능
히스토그램
숫자 아님
원자료 없으면 구간 폭 증가 불가능
구간폭 임의 설정 불가능
'Fundamental Notes > EDA' 카테고리의 다른 글
탐색적자료구조 (0) | 2009.03.24 |
---|---|
[EDA] 첫번째 과제 (0) | 2009.03.18 |
[EDA] 탐색적자료분석 - 과제 (0) | 2009.03.17 |
[EDA] 09. 03. 10 - CH1-3 그래프의 유용성 (0) | 2009.03.11 |
[EDA] 09. 03. 03 - CH1-1&2 Data Analysis & EDA의 4R (0) | 2009.03.10 |