본문 바로가기

빅데이터 처리를 위한 수학 개념

(4)
통계 이론 (정규분포) 정규분포 이미지 출처: https://www.mathsisfun.com/data/standard-normal-distribution.html $$ N(x;μ,σ^2)=\frac{1}{\sqrt{2πσ^2}}{exp(−\frac{(x−μ)^2}{2σ^2})} $$ 정규분포는 평균 μ을 기점으로 분산이 σ인 대칭을 띄는 종 모양의 그래프이다. 특히 평균 0, 분산이 1 인 정규분포를 표준정규분포라고 한다. 표준화 표준정규분포가 아닌 일반 정규분포를 평균이 0, 분산이 1이 되도록 맞추어 표준정규분포 형태로 바꾸는 것이다. μ 가 데이터들의 평균이고, σ가 데이터들의 표준편차일 때, 표준화는 다음과 같이 진행된다. $$ Z=\frac{X- \mu }{\sigma} $$ 중심 극한 정리 모딥단이 정규분포를 따르..
통계 이론 (여러가지 확률 분포) 여러가지 확률 분포 여러가지 확률분포들에 대해 살펴보고, 각각 평균과 분산이 어떻게 계산되는지 알아보자. 이산 균등 분포 취하는 확률들이 모두 같은 확률분포이다. 이산균등분포의 f(x)는 다음과 같이 계산된다. $$ f(x)=\frac{x}{n} $$ 이때 평균과 분산은 다음과 같이 계산된다. $$ E(x)=\sum_{x=1}^n x \cdot f(x) = \sum_{x=1}^n \frac{x}{n}=\frac{1}{n}\frac{n\,(n+1)}{2}=\frac{n+1}{2} $$ $$ Var(x)=\sum_{x=1}^n x^2 f(x)-{E(x)}^2=\sum_{x=1}^n \frac{x^2}{n}-(\frac{n+1}{2})^2=\frac{1}{n}\frac{n(n+1)(2n+1)}{6}-(\fra..
통계 이론 (확률) 확률 라플라스의 확률 (수학적 확률) 총 경우의 수: N 사건 A가 일어나는 경우의 수: n 이때 사건 A가 일어나는 경우의 수는 다음과 같다. $$ P(A)=\frac{n}{N} $$ 콜모고로프의 확률 (통계적 확률) $$ P(A)=lim_{n\rightarrow\infty}\frac{r_n}{n} $$ 이때, rn 은 사건 A가 일어난 횟수이며, n은 시행 횟수를 의미한다. 즉, 시행횟수가 무한대로 수렴하면서 특정 사건이 일어날 확률이 점점 확률값에 수렴됨을 의미한다. 기하학적 확률 $$ \frac{사건\, A가 \,일어날 \,영역의 \,크기}{일어날 \,수 \,있는 \,전 \,영역의 \,크기} $$ 조건부 확률 원래의 실험으로부터 그 일부인 새로운 표본 공간으로 축소한 또 다른 실험의 확률을 의미한..
통계 이론 (Box Plot) Box Plot (상자 그림) 박스 플롯을 이용하면 데이터들의 중앙값과 이상치들을 빠르게 확인할 수 있다. 그럼 이러한 박스 플롯을 그리기 위한 개념들과 방법을 살펴보자. 이상치 이상치란 데이터들의 분포를 확인하였을 때, 일반적인 범위 내에서 벗어나, 평균과 같이 통계처리를 할 때 결과를 왜곡시킬 수 있는 값을 의미한다. 사분위수 사분위수는 데이터를 크기에 따라 4등분을 했다고 생각하면 된다. 이때, 4등분을 하면 그 나누어진 데이터 범위들의 경계는 3 곳이 될 것이다. 따라서 사분위수는 제 1 사분위수 (Q1), 제 2 사분위수 (Q2), 제 3 사분위수(Q3)로 3개가 된다. 사분위수를 구하는 방법 1. 데이터들의 중앙값을 구한다. => Q2 2. Q2를 기준으로 왼쪽 데이터들만 고려할 때, 중앙값을..