[데이터 과학을 위한 통계] chp1 탐색적 데이터 분석(EDA)

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

min

[데이터 과학을 위한 통계] chp1 탐색적 데이터 분석(EDA)_1 본문

python 문법

[데이터 과학을 위한 통계] chp1 탐색적 데이터 분석(EDA)_1

나눈밍짱이 2023. 3. 20. 00:47

1.1 정형화된 데이터의 요소

수치형 데이터 (numeric)
💡 숫자를 이용해 표현할 수 있는 데이터
1. 연속형 데이터 (continuous) : 일정 범위 안에서 어떤 값이든 취할 수 있는 데이터
2. 이산 데이터 (discrete) : 횟수와 같은 정수 값만 취할 수 있는 데이터
범주형 데이터 (categorical)
💡 가능한 범주 안의 값만을 취하는 데이터
1. 이진 데이터 (binary) : 두 개의 값 (0/1 or 참/거짓 만을 갖는 범주형 데이터의 특수한 경우)
2. 순서형 데이터 (ordinal) : 값들 사이에 분명한 순위가 있는 범주형 데이터

1.2 테이블 데이터

💡 각 레코드(사건) 나타내는 행, 피쳐(변수)를 나타내는 열로 이루어진 이차원 행렬

데이터 프레임 (dataframe)
피처 (feature) : 테이블에서의 열 (유: 특징, 속성, 예측변수)
결과 (outcome) : 데이터 과학의 목표는 결과를 예측하는 것
레코드 (record) : 테이블에서의 행 (유: 기록값, 사건, 관측값)

1.3 위치 추정

💡데이터를 살펴보는 기초단계는 피처의 대푯값(typical data) 를 구하는 것

평균 (mean) : 모든 값의 총합을 개수로 나눈 값

절사평균 (trimmed mean) : 정해진 개수의 극단값을 제외한 나머지 값들의 평균

가중평균 (weigthed mean) : 가중치를 곱한 값의 총합을 가중치의 총합으로 나눈 값

✅어떤 값이 다른 값 비해 큰 변화량 가질 때 > 더 작은 가중치를 주는 것이 합리적

✅데이터 수집 시 부족한 그룹에 높은 가중치 적용

중간값 (median) : 데이터에서 가장 가운데 위치한 값

✅데이터에 민감한 평균보다 위치추정에 유리할때가 많음 ex) 빌게이츠 껴있는 동네의 가계소득

✅특잇값에 로버스트함.

🟥 로버스트하다 (robust) : 극단값에 민감하지 않다는 것을 의미

가중 중간값 (weighted median) : 데이터 정렬한 후 각 가중치 값을 위에서부터 더할 때, 총합의 중간이 위치하는 데이터 값

✅중간값과 비슷하게 특잇값에 로버스트함.

print(wquantiles**.**median(state['Murder.Rate'],

weights**=**state['Population']))

`print(wquantiles**.**median(state['Murder.Rate'],`

`weights**=**state['Population']))`

백분위수 (percentile) : 전체 데이터의 P%를 아래에 두는 값

특잇값(outlier) : 대부분의 값과 매우 다른 데이터의 값

1.4 변이 추정

💡 데이터 값이 얼마나 밀집, 퍼져있는지를 나타내는 산포도

편차 (deviation) : 관측값과 위치 추정값 사이의 차이

✅데이터가 중앙값을 주변으로 얼마나 퍼져있는지 알려줌

평균절대편차 (mean absolute deviation) : 평균과의 편차의 절댓값의 평균 (유:L1 노름)

분산 (variance) : 평균과의 편차를 제곱한 값들의 합을 n-1로 나눈값

표준편차 (standard deviation) : 분산의 제곱근

중간값의 중위절대편차 (MAD) : 중간값과의 편차의 절댓값의 중간값

❗분산, 표준편차, 평균절대편차 모두 극단값에 로버스트하지 않지만 MAD는 로버스트하다.

범위 (range) : 데이터의 최댓값과 최솟값 차이

순서통계량 (order statistics) : 최소에서 최대까지 정렬된 데이터 값에 따른 계량형

사분위 범위 (IQR) : 75번째 백분위수과 25번째 백분위수 사이의 차이

'python 문법' 카테고리의 다른 글

[python 데이터 전처리][결측치 처리] (0)	2023.03.23
[문법][Crosstab] (0)	2023.03.02
[데이터 분석][데이터 전처리][결측치] (0)	2023.02.28

'python 문법' Related Articles

Comments

min