What 은 실험적인 누적분포의 기능과 우리가 무엇을 할 수 있는 사람들입니까? 첫 번째 질문에 대답하자,첫 번째 단계는 다시 확인 우리가 이해하”배포”,또는 좀 더 구체적으로”확률 분포”.

기본 확률 분포

간단한 이벤트를 상상해보십시오., 여기에는 모든 가능한 결과,어디 H=머리와 T=꼬리:

  • HHH
  • HHT
  • HTH
  • THH
  • HTT
  • TTH
  • THT
  • TTT

이제 상 H=”success”., 우리의 결과 다음과 같이 수정할 수 있습니다:

  • HHH(3 성공)
  • HHT(2 성공)
  • HTH(2 성공)
  • THH(2 성공)
  • HTT(1 성)
  • TTH(1 성)
  • THT(1 성공)
  • TTT(0 공)

있기 때문에 8 가능한 결과 확률 for0,1,2,3 성공

  • 성공 0:1/8
  • 1 성공:3/8
  • 2 성공:3/8
  • 3 성: 1/8

경우 우리가 합계는 그들이 확률이 우리 1. 그리고 이것은 우리의 사건에 대한”확률 분포”를 나타냅니다., 공식적으로 이 이벤트는 다음과 같이 이항 분배기 때문에 이벤트는 독립적이,수는 고정되어 있의 시험(3),확률은 각각 동일 플립(0.5),와 우리의 결과의 수를”성공에서”수의입니다. 사실 우리가 방금 시연 한 것은 3 번의 시련과 확률이 0.5 와 같은 이항 분포입니다. 이것은 때때로 b(3,0.5)로 축약됩니다., 우리는 빠르게 생성하고 확률 R 를 사용하는dbinom기능:

dbinom(0:3, size = 3, prob = 0.5)## 0.125 0.375 0.375 0.125

우리는 빠르게 시각이 확률분포와 함께barplot기능:

barplot(dbinom(x = 0:3, size = 3, prob = 0.5), names.arg = 0:3)

기능을 생성하는 데 사용되는 이러한 확률이라”밀도,기능”그러므로”d”에서의 앞 binom., 분포를 생성하는 대한 확률과 같은 불연속 값을 이항 이 예제에서는 때때로”라고 확률이 대량 기능”또는 PMFs. 분포를 생성하는 확률에 대한 지속적인 값을 등으로 정상적인,가끔은”라고 확률 밀도 함수”또는 Pdf 파일. 그러나 R 에서 PMF 또는 PDF 에 관계없이 확률을 생성하는 함수는”밀도”함수로 알려져 있습니다.

누적 분포 함수

이제”누적”확률에 대해 이야기합시다., 이것들은 우리가 확률 분포에서 x 축을 따라 왼쪽에서 오른쪽으로 이동함에 따라 누적되는 확률입니다., 보고서 분포 줄거리는 것

  • \(P(X\le0)\)
  • \(P(X\le1)\)
  • \(P(X\le2)\)
  • \(P(X\le3)\)

우리가 계산할 수 있습이:

  • \(P(X\le0)=\frac{1}{8}\)
  • \(P(X\le1)=\frac{1}{8}+\frac{3}{8}=\frac{1}{2}\)
  • \(P(X\le2)=\frac{1}{8} +\frac{3}{8}+\frac{3}{8}=\frac{7}{8}\)
  • \(P(X\le3)=\frac{1}{8}+\frac{3}{8}+\frac{3}{8}+\frac{1}{8} = 1\)

배포의 이러한 확률이 알려져 있으로 누적분포., 다시 우리에게 이러한 확률을 생성하는 r 에 함수가 있습니다. “Binom”앞에”d”대신”p”를 넣습니다.

pbinom(0:3, size = 3, prob = 0.5)## 0.125 0.500 0.875 1.000

이 기능은 종종이라”배포”기능을 수 있는 복잡하려고 할 때 주위에 당신의 머리를 확률 분포에서 일반적입니다. 이 함수를 플로팅하려면 조금 더 많은 작업이 필요합니다. 우리는 곧이 플롯을 만드는 더 쉬운 방법을 시연 할 것이므로 주석없이 다음 코드를 제시합니다.,이 플롯을 단계 플롯이라고도합니다. X 축의 한 점을 치 자마자 다음 확률로”단계”합니다. 0 이하의 확률은 0.125 입니다. 따라서 0 에서 1 까지의 직선입니다. 1 에서 우리는 0.5 까지 단계,의 확률 때문에 1 이하 경우 0.5. 등등. 3 에서는 1 에 점이 있습니다. 3 이하의 확률은 확실성입니다. 우리는 우리의 이항 분포에서 3 개 이하의 성공을 얻을 수 있도록 보장됩니다.

이제 연속 배포로 위에서 한 일을 보여 드리겠습니다., 비교적 간단하게 유지하기 위해 우리는 평균이 0 이고 표준 편차가 1 인 표준 정규 분포를 사용할 것입니다. 과는 달리 내리고 동전을 위 예제는 이해할 수 있습니다 정확히 함께 배포항이 없다,”off-the-shelf”예에서 실시하는 생활지도 완벽한 표준에 정상 유통. 그러므로 우리는 상상력을 사용해야 할 것입니다.

먼저curve함수를 사용하여 분포를 그려 보겠습니다. 첫 번째 인수 인dnorm(x)는 기본적으로 선을 그리는 수학 공식입니다., “Norm”앞에”d”를 주목하십시오;이것은”밀도”함수입니다. dnorm함수의 기본값은 평균=0 이고 표준 편차=1 입니다. fromto인수는-3 에서 3 까지의 x 값을 사용하여이 곡선을 그립니다.

curve(dnorm(x), from = -3, to = 3)

커브는 부드러운 라인을 의미하는,그것은 확률 분포에 대한 모든 부 숫자입니다. 곡선 아래의 면적은 확률 분포이기 때문에 1 입니다.,

이 분포에 도달하고 숫자를 그리는 것을 상상해보십시오. 1.134523768923 을 얻을 확률은 얼마입니까? 본질적으로 0 입니다. 왜? 왜냐하면 그것을 선택할 기회가\(\frac{1}{\infty}\)있기 때문입니다. 왜\(\infty\)가 분모에 있습니까? 무한한 수의 가능성이 있기 때문입니다. 그것이 혼란스러워 보인다면,단지 십진수가 수평선까지 뻗어있는 더 세밀하고 미세한 해상도로 x 축으로 확대되는 것을 상상해보십시오. 즉,y 축 값은 확률을 나타내지 않고 오히려”밀도”를 나타냅니다., 밀도는 본질적으로 작은 범위의 값을 해당 범위로 나눈 확률입니다. 그것도 혼란스러워 보인다면 괜찮습니다. 정확한 확률을 얻기 위해 정규 분포(또는 연속 분포)를 사용하지 않는다는 것을 기억하십시오. 우리는 그것들을 사용하여 값의 범위에 대한 확률을 얻습니다.

예를 들어,x 가-1 보다 작거나 같을 확률은 얼마입니까? 이를 위해 정규 분포에 대한 누적 분포 함수 인pnorm함수를 사용할 수 있습니다.,

pnorm(-1)## 0.1586553

모자이크 패키지에는 편리한plotDist기능에 대한 신속하게 시각화하이 확률이다. 함수 앞에mosaic::를 배치하면 모자이크 패키지를로드하지 않고 함수를 호출 할 수 있습니다. groups인수는 두 개의 영역을 만듭니다. type='h'인수는”히스토그램과 같은”플롯을 그립니다. 두 가지 색상은 해당 지역을위한 것입니다. 분명히”규범”은 정규 분포를 그리는 것을 의미합니다., 다시 기본값은 평균 0 과 표준 편차 1 입니다.

# install.packages('mosaic')mosaic::plotDist('norm', groups = x < -1, type='h', col = c('grey', 'lightblue')) 

이 그림이 실제로 보여줍 누적 확률입니다. 파란색 영역은 0.1586553 과 같습니다.이 분포에서 -1 이하의 값을 그릴 확률. 이 값을 얻기 위해 누적 분포 함수를 사용했습니다. 시각화하는 모든 누적 확률에 대한 표준 정규분포,우리는 다시 사용하는curve기능이지만 이번pnorm.,

curve(pnorm(x), from = -3, to = 3)

살펴보면 -1x 축으로 바로 이동까지 라인,그리고 다음에 직접 가서 왼쪽 x 축,그것은에 착륙 0.1586553. 를 추가할 수 있습니다 이를 사용하는segments

curve(pnorm(x), from = -3, to = 3)segments(x0 = -1, y0 = 0, x1 = -1, y1 = pnorm(-1), col = 'red')segments(x0 = -1, y0 = pnorm(-1), x1 = -3, y1 = pnorm(-1), col = 'blue') 

다시 말씀드리지만 이것은 부드러운 라인 때문에 우리가 해결해야 할 문제의 무한한 실제 값입니다.,

경험적 누적 분포의 기능

이제 우리는 명확한에 누적분포,탐험하자 경험의 누적 배포가 들어 있습니다. “경험적”이란 우리가 이론보다는 관찰에 관심을 갖는다는 것을 의미합니다. 우리가 위에서 탐구 한 누적 분포는 이론을 기반으로했습니다. 확률을 계산하고 분포를 시각화하기 위해 이항 및 정상 누적 분포를 각각 사용했습니다. 그러나 실생활에서 우리가 수집하거나 관찰하는 데이터는 이론적 인 분포에서 비롯된 것이 아닙니다. 우리는 데이터 자체를 사용하여 누적 분포를 만들어야합니다.,

우리는ecdf함수로 R 에서이 작업을 수행 할 수 있습니다. ECDF 는”경험적 누적 분포 함수”를 의미합니다. 마지막 단어 인”기능”에 유의하십시오. ecdf함수는 함수를 반환합니다. 로pbinompnorm었 누적 분포의 기능에 대한 우리의 이론적 데이터,ecdf을 만들이 누적분포함수를 위해 우리의 관찰 데이터입니다. R 과 함께 제공되는 rock 데이터 세트로이를 시험해 보겠습니다.,

암석 데이터 세트에는 석유 저장소에서 48 개의 암석 샘플에 대한 측정 값이 포함되어 있습니다. 면적,페리,모양 및 파마의 4 가지 변수가 포함되어 있습니다. 각 샘플의 모공의 총 면적 인 면적 변수로 작업 할 것입니다.

ecdf함수는 종종 데이터 프레임의 숫자 열인 숫자 벡터에서 작동합니다. 아래에서 우리는 암석 데이터 프레임의 영역 열을 제공합니다.이 경우 출력이 그다지 유용하지 않다는 것을 알 수 있습니다. 그 이유는ecdf함수가 함수를 반환하기 때문입니다., 우리는 우리의 ECDF 함수를 만들 수 있도록 이름에 결과를 할당해야합니다. 자의 사용Fn

Fn <- ecdf(rock$area)

이제 당신은 사용자 지정 누적분포함수를 사용할 수 있습니다. 예를 들어 누적 분포를 시각화하는 단계 플롯을 만들 수 있습니다.

plot(Fn)

보고 줄거리는 우리가 볼 수 있습니다 추정 확률는 지역의 샘플을 보다 작거나 같음 8000 은 약 0.6., 그러나 우리는 그래프를 눈으로 보는 것에 의존하지 않아도됩니다. 우리는 기능이 있습니다! 우리는 그것을 사용하여 더 정확한 견적을 얻을 수 있습니다. 그냥 x 축의 범위 내에서 그것을 숫자를 제공하고 누적 확률을 반환합니다.이 함수는 두 개 이상의 값을 가진 함수를 사용할 수 있습니다. 예를 들어 면적이 4000,6000 및 8000 보다 작거나 같은 예상 확률을 얻을 수 있습니다.

Fn(c(4000, 6000, 8000))## 0.1250000 0.3333333 0.6250000

summary방법에 대한 ECDF 능합니다., 관찰 된 데이터의 고유 값에 대한 요약을 반환합니다. 지 이와 유사한 전통적인 요약 방법에 대한 숫자 벡터,하지만 결과는 약간 다르기 때문에 요약한 값을 대신 모두의 값이 있습니다.

마지막으로,원한다면 ECDF 에 이론적 누적 분포를 중첩 할 수 있습니다. 이것은 우리의 데이터가 특정 이론적 분포로 모델링 될 수 있다고 가정 할 수 있는지 여부를 평가하는 데 도움이 될 수 있습니다. 예를 들어,우리의 데이터는 정규 분포에서 샘플링 된 것으로 생각할 수 있습니까?, 아래에서 우리는 단계 함수를 플롯 한 다음 관찰 된 데이터의 평균 및 표준 편차를 사용하여 누적 정규 분포를 오버레이합니다.

plot(ecdf(rock$area))curve(pnorm(x, mean(rock$area), sd(rock$area)), from = 0, to = 12000, add = TRUE, col='blue', lwd = 2) 

라인을 보이 겹치는 아주 조금을 제안,데이터는 수작할 수 있는 정상 유통. 우리는 또한 우리의 ECDF 의 추정치를 이론적 인 CDF 와 비교할 수 있습니다. 우리는 면적이 8000 보다 작거나 같을 확률이 약 0.625 인 것을 보았습니다., 평균 및 표준 편차가rock$area인 일반 누적 분포와 어떻게 비교됩니까?나는 이것이 내가 할 수있는 일이 아니라는 것을 알고 있습니다.

다른 그래픽 평가 Q Q 줄거리는 또한 쉽게 할 수 있습니다 수행에 사용하여 Rqqnormqqline기능이 있다. 아이디어는 점이 대각선을 따라 떨어지면 데이터가 그럴듯하게 정상이라는 좋은 증거가 있다는 것입니다., 다시이 플롯은 데이터가 정규 분포로 잘 근사화 될 수있는 것처럼 보임을 보여줍니다. (Q-Q 플롯에 대한 자세한 내용은 기사,Q-Q 플롯 이해 참조).

qqnorm(rock$area)qqline(rock$area)

에 대한 질문 또는 설명에 대해 이 문서,연락처 UVA 라이브러리 StatLab:[email protected]

의 전체 컬렉션을 확인하 UVA 라이브러리 StatLab 기사입니다.

클레이 포드
통계 연구 컨설턴트
버지니아 대학교 도서관
2020 년 7 월 9 일