통계) 모집단과 표본분포

통계 2023. 4. 5. 18:03

표본추출: 모집단으로 부터 표본을 추출 하는 것을 Sampling이라고 하며, 표본으로부터 그 특성을 찾아내고 모집단의 특성을 추론하고자 함

-복원추출: 모집단에서 데이터 추출할 때 하나를 추출하고 다시 넣고 추출하는 방법(동일한 표본이 추출될 수 있음

-비복원추출; 모집단에서 데이터 추출할 때 하나 추출하고 다시 넣지 않고 추출하는 방법

🔔 random sampling: 모집단에서 데이터 추출할 때 중요한 점은 편향되지 않아야 함, 각 개체가 모두 동일한 확률로 추출

불균형 데이터(imbalanced data)의 문제

예측모형을 만드는 목적은 관심이 있는 대상이 발생할 확률을 예측하는 경우가 대부분, 그런데 예측 대상이 전체 대비 아주 낮다면 모형의 성능은 괜찮을까? (ex.신용 평가 모형 개발, 제조 불량 예측 등)

1) sampling 기법을 통하여 해결

2) 모델을 통한 성능 개선(ex. cost-sensitive learning)

sampling 기법 (관심대상의 비율이 낮은 경우)

🔔Over sampling

타겟 데이터 적은 class의 수를 많은 class의 비율만큼 증가 시킴(일정 비율로 복원추출 하는 개념)

과도적합의 문제 발생할 수 있음

🔔Under sampling

타겟 데이터의 많은 class의 수를 적은 class의 비율만큼 감소시킴

임의로 뽑은 데이터가 biased(편향)될 수있고 모형의 성능이 떨어질 수 있음

표본분포: 통계량들이 이루는 분포

통계량: 표본에 기초하여 계산되는 수치 함수

🔔 표본평균

🔔 표본평균의 기대값

🔔 표본평균의 분산

🔔 중심극한정리: 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리

표본분포-카이제곱 분포: 표준정규분포의 합으로 이뤄진 분포

자유도(degree of freedom): 표본수 - 제약조건 수 or 표본수 - 추정해야 하는 수 (일반적으로 n-1 사용)

ex) 표본의 크기가 5, 표본평균이 3으로 정해졌다면, 숫자 4개는 자유롭게 정할 수 있으나 마지막 하나의 숫자는 나머지 네개의 숫자에 의해 결정 / 1, 2, 3, 4를 골랐다면 마지막 숫자는 자동으로 5가 되어야 평균이 5로 정해져 있음

-> 카이제곱분포는 자유도 v의 크기에 따라 모양이 달라짐 / 자유도가 커질수록 분포가좌우대칭형태

-> 카이제곱분포는 자유도가 커지면서 표준정규분포에 근사하며, v ≥ 30 이면, 확률은 근사적으로 정규분포로 구할 수 있음

표본분포-T 분포

표본분포-F 분포: 두 모집단의 분산 분석할 때 사용

binlog binlog