Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 군집화
- 레이어2솔루션
- 블록체인
- 결측치처리
- 블록체인트릴레마
- 이더리움
- l2솔루션
- 비지도학습
- GPT
- 머신러닝
- 결측치제거
- K-Means
- 데이터전처리
- Chat GPT
- Clustering
- 데이터과학을위한통계
- ptyhon
- eda
- 이더
- 영지식롤업
- 옵티미스틱롤업
- 데이터분석
- 비탈릭부테린
- nft
- 파이썬
- 모듈러블록체인
- 결측치
- 확장성문제
Archives
- Today
- Total
min
[데이터 과학을 위한 통계] chp1 탐색적 데이터 분석(EDA)_1 본문
1.1 정형화된 데이터의 요소
- 수치형 데이터 (numeric)
- 💡 숫자를 이용해 표현할 수 있는 데이터
- 연속형 데이터 (continuous) : 일정 범위 안에서 어떤 값이든 취할 수 있는 데이터
- 이산 데이터 (discrete) : 횟수와 같은 정수 값만 취할 수 있는 데이터
- 범주형 데이터 (categorical)
- 💡 가능한 범주 안의 값만을 취하는 데이터
- 이진 데이터 (binary) : 두 개의 값 (0/1 or 참/거짓 만을 갖는 범주형 데이터의 특수한 경우)
- 순서형 데이터 (ordinal) : 값들 사이에 분명한 순위가 있는 범주형 데이터
1.2 테이블 데이터
💡 각 레코드(사건) 나타내는 행, 피쳐(변수)를 나타내는 열로 이루어진 이차원 행렬
- 데이터 프레임 (dataframe)
- 피처 (feature) : 테이블에서의 열 (유: 특징, 속성, 예측변수)
- 결과 (outcome) : 데이터 과학의 목표는 결과를 예측하는 것
- 레코드 (record) : 테이블에서의 행 (유: 기록값, 사건, 관측값)
1.3 위치 추정
💡데이터를 살펴보는 기초단계는 피처의 대푯값(typical data) 를 구하는 것
- 평균 (mean) : 모든 값의 총합을 개수로 나눈 값
- 절사평균 (trimmed mean) : 정해진 개수의 극단값을 제외한 나머지 값들의 평균
- 가중평균 (weigthed mean) : 가중치를 곱한 값의 총합을 가중치의 총합으로 나눈 값
✅어떤 값이 다른 값 비해 큰 변화량 가질 때 > 더 작은 가중치를 주는 것이 합리적
✅데이터 수집 시 부족한 그룹에 높은 가중치 적용
- 중간값 (median) : 데이터에서 가장 가운데 위치한 값
✅데이터에 민감한 평균보다 위치추정에 유리할때가 많음 ex) 빌게이츠 껴있는 동네의 가계소득
✅특잇값에 로버스트함.
🟥 로버스트하다 (robust) : 극단값에 민감하지 않다는 것을 의미
- 가중 중간값 (weighted median) : 데이터 정렬한 후 각 가중치 값을 위에서부터 더할 때, 총합의 중간이 위치하는 데이터 값
✅중간값과 비슷하게 특잇값에 로버스트함.
print(wquantiles**.**median(state['Murder.Rate'],
weights**=**state['Population']))
`print(wquantiles**.**median(state['Murder.Rate'],`
`weights**=**state['Population']))`
- 백분위수 (percentile) : 전체 데이터의 P%를 아래에 두는 값
- 특잇값(outlier) : 대부분의 값과 매우 다른 데이터의 값
1.4 변이 추정
💡 데이터 값이 얼마나 밀집, 퍼져있는지를 나타내는 산포도
- 편차 (deviation) : 관측값과 위치 추정값 사이의 차이
✅데이터가 중앙값을 주변으로 얼마나 퍼져있는지 알려줌
- 평균절대편차 (mean absolute deviation) : 평균과의 편차의 절댓값의 평균 (유:L1 노름)
- 분산 (variance) : 평균과의 편차를 제곱한 값들의 합을 n-1로 나눈값
- 표준편차 (standard deviation) : 분산의 제곱근
- 중간값의 중위절대편차 (MAD) : 중간값과의 편차의 절댓값의 중간값
❗분산, 표준편차, 평균절대편차 모두 극단값에 로버스트하지 않지만 MAD는 로버스트하다.
- 범위 (range) : 데이터의 최댓값과 최솟값 차이
- 순서통계량 (order statistics) : 최소에서 최대까지 정렬된 데이터 값에 따른 계량형
- 사분위 범위 (IQR) : 75번째 백분위수과 25번째 백분위수 사이의 차이
'python 문법' 카테고리의 다른 글
[python 데이터 전처리][결측치 처리] (0) | 2023.03.23 |
---|---|
[문법][Crosstab] (0) | 2023.03.02 |
[데이터 분석][데이터 전처리][결측치] (0) | 2023.02.28 |
Comments