Fundamental Notes/EDA 7

[EDA] 첫번째 과제

[탐색적 자료분석 HW1] 1. (연습문제 2장 1번) 1958년 Heckman과 Lubeck는 알파 퍼세이(Alpha Persei)라는 별 근처에 있는 작은 별들의 주행속도를 관측하였다. 데이터는 다음과 같다(단위: km/sec). 50.0 -2.4 1.0 -0.5 2.2 -11.8 -11.9 -36.1 10.0 3.7 -15.9 -4.1 -19.1 -16.2 -7.0 7.0 -9.5 2.0 -3.0 -22.1 -10.8 2.2 0.0 -8.4 5.0 3.2 -9.1 -6.0 -2.8 -1.0 0.5 4.4 -4.4 -17.2 -23.9 3.0 -0.7 2.2 1.6 -0.3 12.8 -8.2 24.7 15.9 18.0 6.0 14.5 -10.5 -13.6 4.8 9.0 -17.5 5.9 -18.4 -..

[EDA] 09. 03. 10 - CH2 Stem-and leaf plot

줄기그림 줄기그림의 목적 : 분포의 대략적인형태를 보기위해 작성 줄기와 잎으로 구성 -줄기 : 각 가로줄 -잎 : 각 가로줄의 숫자 -깊이 : 상향순위와 하향순위 중 작은 값 1. 줄기그림 그리기 54 = 5(줄기) * 10 + 4(잎) 앞자리수(leading digits)를 줄기로 택하여 각각 독립된 line에 할당 각 줄기에 해당하는 line에 각 자료값의 뒷자리수(trailing digits)를 차례로 기록 'depth'를 줄기 옆 왼쪽에 적어준다. 단, 자료의 중위수를 포함하는 줄기에는 깊이대신 도수를 괄호 안에 기입 2. 줄기-잎 그림에서 관찰가능한 자료의 특성 자료의 대칭성 여부//자료의 분포가 대칭적인가 아닌가 자료의 범위와 산포//자료가 몇점부터 몇점까지 있나. 퍼져있나 아닌가 특이점(Ou..

[EDA] 09. 03. 10 - CH1-3 그래프의 유용성

3. 그래프의 유용성 그래픽 방법은 서로 보완적인 4가지 목적을 달성하기 위해 사용됨. 그래프들은 dataset의 내용을 탐색하는 데 유용//데이터가 어떻게 생겼는지 알고싶음 데이터에 있는 구조를 찾아내기 위해 사용됨//그래프의 구조 통계적 모형들에 들어있는 가정들을 확인하기 위해 사용됨//보통 정규분포로 가정.정규분포가 맞냐?아니냐? 분석의 결과를 전달//예로, PT할때 수치결과보다는 그래프 이용이 더 효율적으로 분석결과의 의미전달 가능.

[EDA] 09. 03. 03 - CH1-1&2 Data Analysis & EDA의 4R

1. Data Analysis 탐색적 자료분석(Exploratory Data Analysis - EDA) //검사가 증거를 모아오는 것. 판단x. 그림. (수치)표 : 자료를 설명하는 것, 기술통계 강조, 자료수집, 증거를 찾는 것 확증적 자료분석(Confirmatory Data Analysis - CDA)//평균, 중위수, 최소값, 최빈값, 분산 등. 판사가 판단하는 것 : 기술통계 강조 x, 판단하는 것, 자료를 평가하는 것 //↓mid-term 2. EDA의 4가지 주제 (4R) Resistance. 저항성 - 일부 자료의 파손에 대한 저항성 - 저항성 있는 요약값은 데이터의 일부가 변해도 적게 변화 Residual. 잔차 = Data - Fitting Value(적합값) - 개별 관측값이 주 경향..