본문 바로가기

빅데이터 처리를 위한 수학 개념

통계 이론 (여러가지 확률 분포)



여러가지 확률 분포

여러가지 확률분포들에 대해 살펴보고, 각각 평균과 분산이 어떻게 계산되는지 알아보자.

이산 균등 분포

취하는 확률들이 모두 같은 확률분포이다.

이산균등분포의 f(x)는 다음과 같이 계산된다.

$$
f(x)=\frac{x}{n}
$$


이때 평균과 분산은 다음과 같이 계산된다.

$$
E(x)=\sum_{x=1}^n x \cdot f(x) = \sum_{x=1}^n \frac{x}{n}=\frac{1}{n}\frac{n\,(n+1)}{2}=\frac{n+1}{2}
$$

$$
Var(x)=\sum_{x=1}^n x^2 f(x)-{E(x)}^2=\sum_{x=1}^n \frac{x^2}{n}-(\frac{n+1}{2})^2=\frac{1}{n}\frac{n(n+1)(2n+1)}{6}-(\frac{n+1}{2})^2=\frac{n^2-1}{12}
$$

이때 n은 데이터들의 총 개수이다.


베르누이 분포

실험 시행 결과가 성공 or 실패 중 하나로 결정되는 사건에 대한 확률 분포이다.

이때, 성공할 확률을 p, 실패할 확률을 q라고 하자. (이때 p + q = 1)

각각의 시행들은 독립적이라고 가정한다.


베르누이 분포의 f(x)는 다음과 같이 계산된다.

$$
f(x)=p^x(1-p)^{1-x}\quad(x=0\;or\;1)
$$

성공 또는 실패 중 하나이기 때문에, x가 0 또는 1로 결정된다.


이때 평균과 분산은 다음과 같이 계산된다.

$$
E(x)=1\times p+0 \times q =p
$$

$$
Var(x)=E(x^2)-{E(x)}^2=1\times p+0 \times q -p^2 = p-p^2=p(1-p)
$$


이항분포

베르누이 분포를 여러번 시행한 것이 이항분포이다.

이때 이항분포를 다음과 같이 표현할 수 있다.

$$
B(n,p)
$$

이때 n은 시행횟수이며 p는 성공확률을 의미한다.


이항분포의 f(x)는 다음과 같이 계산된다.

$$
f(x)=_nC_x,p^x(1-p)^{n-x}\quad(x=0,\,1,...,\,n)
$$

참고로 이때 nCk는 다음과 같이 계산된다.

$$
_nC_k=\frac{n!}{k!(n-k)!}
$$

n!은 1~n까지의 수로 만들 수 있는 경우의 수로 0!일 경우에는 0~1로 만들 수 있는 경우의 수이기 0! = 1 이 됨을 주의하자.


이때 평균과 분산은 다음과 같이 계산된다.

$$
E(x)=np
$$

$$
Var(x)=np(1-p)
$$

이 이항분포의 평균과 분산은 베르누이 분포가 n번 시행된 것이므로 베르누이 분포의 평균과 분산에 n을 곱한 값들이다.

초기하 분포

N개의 유한한 모집단에서 n번의 비복원 추출을 하는 확률분포이다.

이때 M개는 성공하고 (N-M)개는 실패한다고 가정하자.

이때 초기하 분포를 다음과 같이 표현할 수 있다.

$$
H(N,M,n)
$$


초기하 분포의 f(x)는 다음과 같이 계산된다.

$$
f(x)=\frac{_MC_x \cdot _{N-M}C_{n-x}}{_NC_n}\quad (0\leq x\leq M,\, 0\leq n-x \leq N-M)
$$


이때 평균과 분산은 다음과 같이 계산된다.

$$
E(x)=n\frac{M}{N}
$$

$$
Var(x)=n\frac{M}{N}(1-\frac{M}{N})(\frac{N-n}{N-1})
$$

이때 M/N은 성공하는 경우를 전체 경우로 나눈 것으로 p와 유사한 값을 갖게 된다.

또한 분산의 마지막에 곱해진 term은 다음과 같이 계산될 수 있음을 생각할 수 있다.

$$
\lim_{N \to \infty}\frac{N-n}{N-1}=1
$$

따라서 초기하 분포의 평균과 분산은 모집단의 수 즉, N이 증가할수록 이항분포의 평균과 분산인 np, npq와 유사한 값을 갖게 된다고 볼 수 있다.

$$
\lim_{N \to \infty} H(N,M,n) \simeq B(n,\frac{M}{N})
$$


기하 분포

여러번 시도 끝에 성공이 나오는 확률을 구하는 분포이다.

이때 성공할 확률을 p, 실패할 확률을 q 라고 할 때, 기하분포를 다음과 같이 표현할 수 있다.

$$
Geo(p)\,or\,NB(1,p)
$$


기하분포 p(x)는 다음과 같이 계산된다.

$$
P(x)=q^{x-1}\cdot p
$$


이때 평균과 분산은 다음과 같이 계산된다.

$$
E(x)=\frac{1}{p}
$$

$$
Var(x)=\frac{q}{p^2}
$$


음이항 분포

총 x번 중 k번 성공하고, 마지막 x번째에도 성공할 확률분포이다. 기하분포가 여러 번 있다고 생각하면 이해하기 쉬울 것 같다.

이때 성공할 확률을 p, 실패할 확률을 q 라고 할 때, 음이항 분포를 다음과 같이 표현할 수 있다.

$$
NB(k,p)
$$


음이항 분포 p(x)는 다음과 같이 계산된다.

$$
f(x)=_{x-1}C_{k-1}p^k \cdot q^{x-k}\quad (x\geq k)
$$

참고로 이때 x-1Ck-1는 다음과 같이 계산된다.

$$
_{x-1}C_{k-1} = \frac{(x-1)!}{(k-1)!(x-k)!}
$$

맨 마지막은 항상 성공이기 때문에 마지막 성공을 빼고 시도한 (x-1)번 중 성공한 (k-1)끼리는 순서가 없고, 실패한 (x-k)끼리도 순서가 없기 때문에 경우의 수가 위와 같이 계산된다.


이때 평균과 분산은 다음과 같이 계산된다.
$$
E(x)=\frac{k}{p}
$$

$$
Var(x)=\frac{kq}{p^2}
$$



'빅데이터 처리를 위한 수학 개념' 카테고리의 다른 글

통계 이론 (정규분포)  (0) 2022.01.11
통계 이론 (확률)  (0) 2021.10.02
통계 이론 (Box Plot)  (0) 2021.10.01