여러가지 확률 분포
여러가지 확률분포들에 대해 살펴보고, 각각 평균과 분산이 어떻게 계산되는지 알아보자.
이산 균등 분포
취하는 확률들이 모두 같은 확률분포이다.
이산균등분포의 f(x)는 다음과 같이 계산된다.
$$
f(x)=\frac{x}{n}
$$
이때 평균과 분산은 다음과 같이 계산된다.
$$
E(x)=\sum_{x=1}^n x \cdot f(x) = \sum_{x=1}^n \frac{x}{n}=\frac{1}{n}\frac{n\,(n+1)}{2}=\frac{n+1}{2}
$$
$$
Var(x)=\sum_{x=1}^n x^2 f(x)-{E(x)}^2=\sum_{x=1}^n \frac{x^2}{n}-(\frac{n+1}{2})^2=\frac{1}{n}\frac{n(n+1)(2n+1)}{6}-(\frac{n+1}{2})^2=\frac{n^2-1}{12}
$$
이때 n은 데이터들의 총 개수이다.
베르누이 분포
실험 시행 결과가 성공 or 실패 중 하나로 결정되는 사건에 대한 확률 분포이다.
이때, 성공할 확률을 p, 실패할 확률을 q라고 하자. (이때 p + q = 1)
각각의 시행들은 독립적이라고 가정한다.
베르누이 분포의 f(x)는 다음과 같이 계산된다.
$$
f(x)=p^x(1-p)^{1-x}\quad(x=0\;or\;1)
$$
성공 또는 실패 중 하나이기 때문에, x가 0 또는 1로 결정된다.
이때 평균과 분산은 다음과 같이 계산된다.
$$
E(x)=1\times p+0 \times q =p
$$
$$
Var(x)=E(x^2)-{E(x)}^2=1\times p+0 \times q -p^2 = p-p^2=p(1-p)
$$
이항분포
베르누이 분포를 여러번 시행한 것이 이항분포이다.
이때 이항분포를 다음과 같이 표현할 수 있다.
$$
B(n,p)
$$
이때 n은 시행횟수이며 p는 성공확률을 의미한다.
이항분포의 f(x)는 다음과 같이 계산된다.
$$
f(x)=_nC_x,p^x(1-p)^{n-x}\quad(x=0,\,1,...,\,n)
$$
참고로 이때 nCk는 다음과 같이 계산된다.
$$
_nC_k=\frac{n!}{k!(n-k)!}
$$
이 n!은 1~n까지의 수로 만들 수 있는 경우의 수로 0!일 경우에는 0~1로 만들 수 있는 경우의 수이기 0! = 1 이 됨을 주의하자.
이때 평균과 분산은 다음과 같이 계산된다.
$$
E(x)=np
$$
$$
Var(x)=np(1-p)
$$
이 이항분포의 평균과 분산은 베르누이 분포가 n번 시행된 것이므로 베르누이 분포의 평균과 분산에 n을 곱한 값들이다.
초기하 분포
N개의 유한한 모집단에서 n번의 비복원 추출을 하는 확률분포이다.
이때 M개는 성공하고 (N-M)개는 실패한다고 가정하자.
이때 초기하 분포를 다음과 같이 표현할 수 있다.
$$
H(N,M,n)
$$
초기하 분포의 f(x)는 다음과 같이 계산된다.
$$
f(x)=\frac{_MC_x \cdot _{N-M}C_{n-x}}{_NC_n}\quad (0\leq x\leq M,\, 0\leq n-x \leq N-M)
$$
이때 평균과 분산은 다음과 같이 계산된다.
$$
E(x)=n\frac{M}{N}
$$
$$
Var(x)=n\frac{M}{N}(1-\frac{M}{N})(\frac{N-n}{N-1})
$$
이때 M/N은 성공하는 경우를 전체 경우로 나눈 것으로 p와 유사한 값을 갖게 된다.
또한 분산의 마지막에 곱해진 term은 다음과 같이 계산될 수 있음을 생각할 수 있다.
$$
\lim_{N \to \infty}\frac{N-n}{N-1}=1
$$
따라서 초기하 분포의 평균과 분산은 모집단의 수 즉, N이 증가할수록 이항분포의 평균과 분산인 np, npq와 유사한 값을 갖게 된다고 볼 수 있다.
$$
\lim_{N \to \infty} H(N,M,n) \simeq B(n,\frac{M}{N})
$$
기하 분포
여러번 시도 끝에 성공이 나오는 확률을 구하는 분포이다.
이때 성공할 확률을 p, 실패할 확률을 q 라고 할 때, 기하분포를 다음과 같이 표현할 수 있다.
$$
Geo(p)\,or\,NB(1,p)
$$
기하분포 p(x)는 다음과 같이 계산된다.
$$
P(x)=q^{x-1}\cdot p
$$
이때 평균과 분산은 다음과 같이 계산된다.
$$
E(x)=\frac{1}{p}
$$
$$
Var(x)=\frac{q}{p^2}
$$
음이항 분포
총 x번 중 k번 성공하고, 마지막 x번째에도 성공할 확률분포이다. 기하분포가 여러 번 있다고 생각하면 이해하기 쉬울 것 같다.
이때 성공할 확률을 p, 실패할 확률을 q 라고 할 때, 음이항 분포를 다음과 같이 표현할 수 있다.
$$
NB(k,p)
$$
음이항 분포 p(x)는 다음과 같이 계산된다.
$$
f(x)=_{x-1}C_{k-1}p^k \cdot q^{x-k}\quad (x\geq k)
$$
참고로 이때 x-1Ck-1는 다음과 같이 계산된다.
$$
_{x-1}C_{k-1} = \frac{(x-1)!}{(k-1)!(x-k)!}
$$
맨 마지막은 항상 성공이기 때문에 마지막 성공을 빼고 시도한 (x-1)번 중 성공한 (k-1)끼리는 순서가 없고, 실패한 (x-k)끼리도 순서가 없기 때문에 경우의 수가 위와 같이 계산된다.
이때 평균과 분산은 다음과 같이 계산된다.
$$
E(x)=\frac{k}{p}
$$
$$
Var(x)=\frac{kq}{p^2}
$$
'빅데이터 처리를 위한 수학 개념' 카테고리의 다른 글
통계 이론 (정규분포) (0) | 2022.01.11 |
---|---|
통계 이론 (확률) (0) | 2021.10.02 |
통계 이론 (Box Plot) (0) | 2021.10.01 |