Fundamental Notes/EDA

[EDA] 09. 03. 03 - CH1-1&2 Data Analysis & EDA의 4R

콩콩댕 2009. 3. 10. 18:21
반응형

1. Data Analysis
탐색적 자료분석(Exploratory Data Analysis - EDA) //검사가 증거를 모아오는 것. 판단x. 그림. (수치)표
: 자료를 설명하는 것, 기술통계 강조, 자료수집, 증거를 찾는 것
확증적 자료분석(Confirmatory Data Analysis - CDA)//평균, 중위수, 최소값, 최빈값, 분산 등. 판사가 판단하는 것
: 기술통계 강조 x, 판단하는 것, 자료를 평가하는 것


//↓mid-term
2. EDA의 4가지 주제 (4R)
Resistance. 저항성
- 일부 자료의 파손에 대한 저항성
- 저항성 있는 요약값은 데이터의 일부가 변해도 적게 변화


Residual. 잔차
= Data - Fitting Value(적합값)
- 개별 관측값이 주 경향에서 얼마나 벗어났는가

 ex) 4 (적합값)    1    300    3    4    5
                        3    196    -1   0    1   //196. 잔차값이 너무 크다. "이상한 값이다, 아니다"를 판단할 수 있다.



Re - expression. 재표현
- 원래의 변수를 적당한 척도로 변환하는 것. //수치자료에 log를 씌우거나, 제곱, 제곱근 등의 변환
- 분포의 대칭성
- 직선화


Representation. 현시성
- 자료 안에 숨겨진 정보를 보여주는 효율적인 수단. //그림으로 표현 가능

'Fundamental Notes > EDA' 카테고리의 다른 글

탐색적자료구조  (0) 2009.03.24
[EDA] 첫번째 과제  (0) 2009.03.18
[EDA] 탐색적자료분석 - 과제  (0) 2009.03.17
[EDA] 09. 03. 10 - CH2 Stem-and leaf plot  (0) 2009.03.11
[EDA] 09. 03. 10 - CH1-3 그래프의 유용성  (0) 2009.03.11